Le statistiche sono una cosa seria: anche nella SEO
Negli ultimi mesi stiamo assistendo a una vera e propria esplosione di statistiche, analisi e correlazioni di ogni tipo, anche in ambito SEO. In questo breve post cerco di dare la mia visione su questo argomento che, secondo me, sta diventando sempre più un argomento da bar piuttosto che una vera scienza.
La statistica non è solo la massa di “noiosi” documenti dell’ISTAT o il metodo per pubblicizzare un determinato evento, prodotto, sondaggio politico, e via dicendo. La statistica è una vera e propria materia scientifica: una scienza al pari di tutte le altre. Se consideriamo che le origini storiche della statistica sono abbondantemente precedenti rispetto, ad esempio, al Cristianesimo, possiamo immaginare che essa non rappresenti un semplice “divertimento moderno”.
Premessa
Una quantità sempre maggiore di siti e blog SEO hanno incominciato a affiancare le proprie teorie e supposizioni, a grafici e rilevazioni statistiche di “supporto” in grado, secondo loro, di certificare matematicamente e sopra ogni ragionevole dubbio le loro teorie. Il fatto di “modellare” e “sfruttare forzatamente” i dati statistici per portare valore alle proprie argomentazioni è diventata, purtroppo, una pratica sempre più frequente (sopratutto in ambito commerciale e politico). L’idea di fondo è che un’analisi statistica può portare a una teoria, e non il contrario. Non è la teoria che deve cercare disperatamente una statistica da utilizzare come argomentazione. Dopo questa breve introduzione, faccio due premesse:
1) L’idea di questo articolo nasce da un post simpatico su G+ di un certo Eivind Savio, che ha postato la seguente immagine titolata Causation Vs Correlation:
L’immagine sembra rappresentare un mix di due grafici per dimostrare una correlazione statistica tra il market share di Internet Explorer e il numero di omicidi negli Stati Uniti. Visivamente, e appunto “statisticamente”, sembra esserci una correlazione numerica tra la quota di mercato di IE e gli omicidi negli Stati Uniti. All’abbassarsi della quota di mercato di IE calano gli omicidi.. Poi, basta accendere il cervello due secondi, per capire che è uno scherzo grafico ironico organizzato da Savio, che voleva ovviamente prendere in giro le altre correlazioni statistiche sparse per la rete.
2) La seconda idea che mi spinge a fare questo post deriva dalle considerazioni che ha fatto Emanuele, e che io condivido al 101%, riguardo un post di SearchMetrics che ha fatto il giro del web. Qualche mese fa la nota software house ha fatto uno studio statistico nel quale verrebbero riuniti i “Ranking Factors” di Google, ossia i fattori per posizionarsi su Google. L’immagine riassuntiva dello studio è la seguente:
La prima cosa che salta subito all’occhio è che, secondo Search Metrics (che gestisce un index enorme, al pari di SEOmoz e degli altri tools), il fattore in assoluto più importante per il posizionamento (ranking) sono le condivisioni su Facebook, anche più del numero di backlink. Al terzo, quarto, quinto e sesto posto c’è sempre un social di mezzo: lo avreste mai detto? Avreste mai detto che uno share su facebook vale quasi 9 volte più della key nell’url?
Dopo aver brevemente esposto le cause che mi hanno spinto a fare il post passiamo agli esempi!
Definizione e esempi di correlazione statistica
La definizione che Wikipedia ci fornisce di “correlazione statistica” è:
In statistica per correlazione si intende una relazione tra due variabili casuali tale che a ciascun valore della prima variabile corrisponda con una certa regolarità un valore della seconda.
Secondo questa descrizione, quindi, lo studio di Search Metrics è a tutti gli effetti una vera e propria correlazione statistica. Da un punto di vista tecnico e formale, senza applicare nessun conseguente ragionamento e studio interpretativo, Search Metrics ha eseguito una correlazione statistica assolutamente perfetta.
Ok, dopo aver rispolverato i grafici di Excel, vi propongo anche io tre correlazioni statistiche tecnicamente ineccepibili:
L’immagine di cui sopra dimostra statisticamente la correlazione numerica inversa tra il numero di milioni di utenti di Facebook e la percentuale di occupati giovani tra i 15 e i 24 anni, nel periodo storico tra il 2005 e il 2010. E’ evidente a tutti che, statisticamente, quando aumenta il numero di registrati su Facebook, diminuisce il numero di lavoratori giovani.
In quest’altro studio, è possibile notare una nuova correlazione inversa. Quando la quota di mercato di Internet Explorer scende, le pensioni medie degli italiani salgono: statisticamente, è così.
Stavolta vi offro una correlazione diretta di indiscussa validità scientifica. Studi scientifici dimostrano che quando le persone usano la risoluzione 1024*768 la produzione mondiale di automobili aumenta della stessa misura, viceversa quando gli utenti scelgono risoluzioni diverse dalla 1024, il mercato globale di auto risponde con un calo di produzione istantaneo. Marchionne, questo è un business plan! 😀
Correlation is not Causation
Dopo queste tre divertenti statistiche che non hanno assolutamente nessuna “vera” correlazione, tutti avrete capito che il problema, quando si parla di statistiche, è il cosidetto errore di correlazione. In questo bell’articolo, ad esempio, ci viene spiegato che l’errore di correlazione consiste nello “scambiare una correlazione per una relazione di causa-effetto“. Per le spiegazioni tecniche di stampo statistico vi rimando allo stesso articolo linkato poco fa, ma vorrei copiare una delle ultime frasi:
la correlazione fra due variabili è condizione necessaria, ma non sufficiente al nesso causale
Se appliciamo questi nuovi concetti allo studio di Search Metrics possiamo fare alcune considerazioni:
– Il titolo “Ranking Factors” è una totale cavolata volutamente inserita dai creatori per aumentare lo “share appeal” dello studio
– Un ranking factor è un fattore che determina il posizionamento. Prendere dei siti che sono già posizionati e estrapolarne le caratteristiche credendo che queste siano influenti al posizionamento stesso è un errore particolarmente grave. (che insulta l’intelligenza dei lettori del blog..) Durante il SEO Contest 2012, per fare un esempio semplice, mi sono divertito a modificare la mia homepage inserendo una serie di fotografie senza senso e codice html totalmente rovinato. Pur rimanendo primo (per alcuni giorni), tutti sappiamo che quelle azioni non sono assolutamente dei “ranking factors” ma, se fosse passato il crawler di SearchMetrics in quel periodo, avrebbe rilevato il mio codice distrutto come “fattore di ranking” per la key stellissimo: assurdo!
– Search Metrics ci dice, sostanzialmente, quali caratteristiche possiedono i siti che si sono già posizionati. Il fatto dei segnali sociali in cima alla classifica è facilmente spiegabile: se io sono in terza pagina avrò ZERO visibilità, ma se sono primo su tutte le keyword del mio business è logico aspettarsi un naturale e fisiologico boost delle metriche social (likes, share, tweet ecc) che, in questo caso, diventano una conseguenza del ranking, e non una causa.
– Lo studio di Search Metrics non solo è totalmente sbagliato, ma è anche dannoso. Chi non si è posto il dubbio della correlazione-causalità dei fattori, potrebbe prendere alla lettera lo studio di SM e interpretare i risultati come dei veri ranking factor. Incredibile ma vero, il fattore più dannoso per il ranking secondo SM è la lunghezza del content: una rivoluzione! Niente più content marketing, testi di qualità: dobbiamo creare contenuti striminziti di un paio di righe e keyword stuffing a gogo!
– Oltre a fare dei contenuti minuscoli, lo studio di SearchMetrics ci consiglia anche di evitare l’uso della keyword nell’H1 e anche nel title! ( sono addirittura considerati fattori negativi di ranking! ). E ora su, tutti a fare queste modifiche! Poi ci vediamo tutti in tribunale quando tutti i clienti spariscono day/night dalle SERP e ci chiedono i danni 😀
In conclusione
La statistica è una materia interessante (e molto più complessa di quanto si crede) ma, essendo una scienza, deve essere fatta da persone capaci e competenti: non basta aggregare un pò di cifre e dare un titolo “interpretativo” dal forte sex-appeal, per costruire un’analisi seria (tralaltro di uno degli argomenti più importanti dell’intera SEO).
Ne io, ne Emanuele, ne nessun’altro in ufficio, è esperto di statistica. Proprio per questo noi, al massimo, ci divertiamo a pubblicare test, casi studio e simili, ma non abbiamo e non avremo mai la presunzione di pubblicare correlazioni scientifiche indiscutibili, per lo più sulla SEO, in cui basta un errore per distruggere un business in una notte.
Come avrete capito, questo post è sostanzialmente un piccolo appunto per chiarire la differenza tra correlazione e causalità, e per ribadire l’importanza di serietà e metodo in una materia scientifica sempre più abusata.
Due ultime cose: riguardo al caso specifico di Search Metrics lascio rispondere a Emanuele agli eventuali commenti (che tralaltro per qualche mese ha usato proprio Search Metrics a pagamento come tool SEO, quindi ne sa più di tutti :D). Sempre riguardo al caso SM, vorrei precisare che numerosi colleghi e blog SEO avevano già affrontato i fattori nel dettaglio, evidenziando già la differenza tra causalità e correlazione ( Enrico Altavilla, blog SEO GT e Forum GT, ilbloggatore, tagliaerbe e tanti altri).
Antonio Cicirelli
Davvero molto simpatico, irriverente e soprattutto molto intelligente questo post. Ti faccio i miei complimenti Danilo. Con simpatia e leggerezza sei riuscito a dimostrare come, spesso e volentieri, i dati vengano utilizzati per confutare delle tesi definite a priori piuttosto che per estrapolare nuove verità.
Magari questi grandi colossi usano questi dati in questo modo anche per “intorbidire un po’ le acque” e creare un po’ di confusione e mistificazione nel settore. Che ne pensi?
Concordo in pieno anche sulle tue considerazioni in merito a “Causation is not Correlation” (che andrebbe anche bene nella forma “Correlation is not Causation”).
Davvero ben fatto 😉
Emanuele Tolomei
Che dire: Fantastico 🙂
La chicca su Facebook è talmente esaltante che la considererei scientifica a tutti gli effetti, altro che burla! MITO
Sul caso SM sai come la penso, infatti ho sempre sostenuto che i dati in relazione agli share sono proprio una conseguenza, nemmeno una correlazione
Come dicono i miei maestri: “Chi sa fare SEO se ne frega delle statistiche, contano i profitti”
Quelli forti hanno siti con 3 visite che convertono di più di un sito con 300.000 visite: Ovviamente non parlo di AdSense, mai usato. Ma forse chissà, in futuro non lo escludo, sono talmente giovane 🙂
Saper usare il proprio account di analytics o di qualunque altro sistema di monitoraggio, vale più di qualsiasi altra attività.
Ma fare statistica è un lavoro per pochi, purtroppo è anche vero che è una materia che aiuta molto a fare considerazioni e correlazioni, MA POCO A PREVEDERE IL FUTURO. Si possono fare proiezioni, ma il tutto basato su andamenti che possono avere influenza temporali, stagionali, insomma, pure casualità.
Antonio Mecca
Sono d’accordo con le vostre opinioni, che dire l’articolo è fantastico anche se come dice Emanuele, la statistica su Analytics ti dà una mano nell’immediato a patto che ovviamente sai cosa e come analizzare i dati.
Danilo Petrozzi
Intanto grazie a tutti, ho avuto una professoressa di matematica che amava il suo lavoro 😀
Analytics è uno strumento formidabile sopratutto perchè ti presenta una serie enorme di dati che gli statistici definiscono “grezzi”. Hai a disposizione una grande banca dati con la quale tu stesso puoi costruire le tue “correlazioni statistiche personali” (ad esempio quando correliamo il numero di visite al tipo di browser dell’utente, o alla risoluzione del monitor, o in base alla sorgente e via dicendo). Il successo nell’analisi di questi dati, però, deriva solo dall’abilità della persona che li osserva, li studia, li interpreta e infine trae conclusioni! Analytics ti dice, ad esempio, che la pagina X fa 10 visite mentre la pagina Y ne fa 40, ma non ti dice perché c’è questa differenza, in che modo sfruttarla, non ti dice se c’è un trend positivo o negativo di una o l’altra ecc
Nel caso di SM, invece, qualcuno ha raccolto i dati, li ha studiati e interpretati e, dopo aver tratto delle conclusioni, ci ha fornito il risultato secco, senza le dovute analisi e interpretazioni, e oltretutto con un titolo totalmente ingannevole. Nessuno mette in dubbio la veridicità matematica delle percentuali riportate nel grafico di SM, il problema è la mancanza di un testo interpretativo o delle dovute indicazioni nel grafico per spiegare il vero senso di quei numeri.
Piccolo appunto: Solo per fare un esempio pratico, dato che per puro caso stavo guardando La7, fate caso al fatto che quando viene mostrato un sondaggio politico (di questi tempi vanno molto di moda) quasi nessun giornalista si preoccupa di fornire i dati riguardo le condizioni dello studio (numero di partecipanti, sesso, età, domande proposte, numero di risposte, metodo di acquisizione dei dati ecc). C’è da dire che gli unici che spiegano e mostrano i dati con regolarità sono Mannheimer di Porta a Porta e Masia il lunedì al tg La7. Tutti gli altri, invece, fanno proprio come SM, ti danno delle percentuali (ad esempio le proiezioni di voto) senza farti sapere se il campione analizzato è di 200 persone o 750.000, se le persone sono per la maggiorparte ragazzi neolaureati o pensionati ultrasettantenni, se le domande del sondaggio sono state fatte al telefono, via posta o in rete, ecc: con le dovute conseguenze ai fini statistici.
Benedetto Motisi
Altra perla di Danilo: i dati sono una figata, i dati sono importanti e ti indirizzano verso la strada giusta. Ma i dati possono essere usati in maniera “politica” e piegati. C’è gente che ci vince le elezioni facendo così.
Immaginarsi nella SEO, dove le votazioni sono quotidiane.
Il dato di FB è qualcosa che ancora mi fa pensare “WTF?” (si io penso in acronimi e meme, si sappia).
Frase da tatuarsi, direttamente dal Maestro:
“Chi sa fare SEO se ne frega delle statistiche, contano i profitti”
Martino Mosna
Haha, a risoluzione “1024×768 vs. Produzione mondiale di automobili” mi sono ribaltato 😀 ottimo articolo
web marketing Doc
E’ evidente a tutti che, statisticamente, quando aumenta il numero di registrati su Facebook, diminuisce il numero di lavoratori giovani… come dire che più si diffonde la Xbox o la Playstation e meno bambini vengono concepiti. Evidente a tutti 😉
Paco
Parole sagge, un post divertente quanto veritiero, sulla strumentalizzazione delle informazioni, che anche attraverso i dati dimostrano che chi vuole riesce sempre a tirar acqua al proprio mulino. Mi sembra come chi dice che dice/diceva che la SEO è morta…
Penso sempre di più che queste strategie siano da molto tempo utilizzate da chi governa e occulta la conoscenza, bene comune di noi tutti! Evidente ahimè, anche questo!
Su FB spero nel suo declino, probabile, che almeno possa fare risalire la curva occupazionale giovanile a questo punto 😀
non crederete a graph search e voip call… Ihihihi
beh è sacrosanto: i profitti! Questo vuole il cliente!
Complimenti per l’articolo Danilo, ottimo 😉
Officinaseo
Ho fatto statistica all’università ma questo non mi favorisce nella seo?
Ecco, lo sapevo, che ho studiato a fare?
A parte gli schezi, è vero, la statistica non prevede ma traccia un’ideale linea di sviluppo.
Se penso che il 98/99% dei seo non sa nulla di statistica la cosa mi ci rode un pò, ma poi guardo questo articolo, sorrido e mi dico.
Ma chi se ne frega. Mi piace il mio lavoro così com’è, per l’imprevedibilità. Se fosse tutto un modello matematico che gusto ci sarebbe?
Complimenti per l’articolo.
Jessica D'Ascenzo
Geniale! Mi hai fatto sorridere ma soprattutto riflettere!
Complimenti!