Quagliotti e Tanganelli, Commercialisti e Revisori Contabili a Firenze

L’importanza del campione
C’è un solo modo per sapere esattamente quante palline bianche e quante palline nere ci sono un vaso: bisogna contarle

Per fortuna c’è anche un sistema più semplice per stimare quante sono le palline bianche (o quelle nere): basta estrarre dal vaso una manciata di palline (il campione statistico) e contare solo quelle, dando per scontato che la proporzione palline bianche/palline nere sarà la stessa in tutto il vaso. Se il campione è abbastanza grande (dimensione del campione) ed è selezionato correttamente (metodo di selezione), allora rappresenterà l’intero (il vaso) in maniera soddisfacente per la maggior parte delle applicazioni; ma se invece dimensione e selezione non sono corrette, tanto valeva tirare a indovinare. Purtroppo, campioni troppo piccoli o mal selezionati, o entrambe le cose, stanno alla base della maggior parte di ciò che leggiamo o peggio ancora, di ciò che crediamo di sapere.

Facciamo un esempio, per quanto estremo. Supponiamo che un importante quotidiano mandi a un gruppo di cittadini un questionario nel quale compare la domanda: “Ti piace rispondere ai questionari?”. Sommati tutti quelli debitamente restituiti, il quotidiano probabilmente pubblicherà un articolo nel quale dirà che la stragrande maggioranza dei cittadini, “una percentuale rappresentativa della popolazione”, adora rispondere ai questionari. La realtà può essere molto, molto diversa. Infatti, la maggior parte di coloro che avrebbero risposto: “No, detesto rispondere ai questionari”, è semplicemente uscita dal campione nel momento in cui ha gettato l’odiato questionario nel primo cestino a portata di mano.

C’è di peggio. La prossima volta che leggete che l’Italiano medio si lava i denti 1.05 volte al giorno, chiedetevi come sia possibile saperlo veramente. Questo dato statistico può avere qualche significato solo per qualcuno che volesse sapere cosa pensano gli Italiani dell’igiene orale quotidiana, ma non dice molto riguardo alla frequenza con la quale lo spazzolino entra in contatto con i denti dei nostri connazionali. Il risultato di uno studio statistico condotto su un campione non può mai essere migliore del campione sul quale è basato. E come spesso succede, poiché i dati vengono filtrati attraverso strati e strati di manipolazioni statistiche e ridotti a una media (quasi sempre con la virgola, così sembra più precisa), il risultato si allontana sempre di più da quello che si sarebbe ottenuto semplicemente dando un’occhiata più accurata al campione. Il quale, per avere valore, deve essere rappresentativo, ossia deve avere almeno approssimativamente la stessa distribuzione di caratteristiche della popolazione dalla quale è stato estratto.

Inoltre, l’affidabilità di un campione può essere distrutta da fonti visibili di errore, ma anche da fonti che non lo sono. In altre parole, anche se nella vostra analisi del campione non riuscite a trovare una fonte dimostrabile di errore, mantenete sempre un certo scetticismo sul risultato perché è molto, molto probabile che da qualche parte ci sia una possibilità di errore. C’è sempre un errore.

La campionatura randomica (casuale) è il metodo base della statistica. Qui, il campione viene selezionato per puro caso da un “universo”, ovvero da un intero del quale il campione è una parte: un nome ogni dieci dall’elenco telefonico, un individuo ogni venti in una stazione ferroviaria. Come si vede, l’universo di riferimento è sempre ristretto: nel primo caso, non tutti compaiono nell’elenco telefonico, mentre nel secondo non tutti sono in stazione nelle due ore in cui una rete televisiva intervista i passanti a casaccio. La “prova del nove” del campione randomico consiste infatti nel chiedersi se ogni elemento dell’intero ha uguali probabilità di essere presente all’interno del campione considerato. Quello “puramente casuale” è l’unico tipo di campione che può essere analizzato con fiducia con i mezzi della teoria statistica, se non fosse che ottenerlo è talmente difficile e costoso che per la maggior parte delle applicazioni si ricorre al suo sostituto più economico, il campione casuale stratificato, che si ottiene dividendo l’universo di riferimento in molti gruppi in funzione della loro prevalenza (diffusione) nota.

I problemi cominciano qui: l’informazione sulla prevalenza potrebbe essere errata. L’interpretazione potrebbe essere errata. Ottenere un campione casuale entro una data stratificazione è quasi impossibile. Per fare un esempio, supponiamo di iniziare con una lista che comprende tutti gli Italiani e di intervistare solo quelli scelti a caso, ma il costo per farlo è proibitivo. Allora scegliamo di intervistare le persone che camminano per strada, ma così escludiamo tutte le quelle che in quel momento sono a casa. Bussiamo a tutte le porte giorno dopo giorno, ma così perdiamo tutti quelli che in quel momento sono al lavoro. Decidiamo allora di fare le interviste solo alla sera, ma così trascuriamo tutti quelli che sono al cinema, o in pizzeria, o al bowling con gli amici. È chiaro che questo tipo di operazione finisce presto per diventare una lotta impari contro l’errore, una battaglia che le aziende (serie) che si occupano di ricerche statistiche e di analisi dell’opinione pubblica conducono ogni giorno, senza vincerla mai. Perciò, leggere che: “Il 54% degli Italiani è a favore” di qualcosa deve spingere a chiedersi, un secondo dopo: “Il 54% di quali Italiani?”

Infine, la presentazione di un risultato statistico basato su un campione troppo piccolo costituisce una delle modalità di vera e propria truffa tra le più diffuse e convincenti. Nella patinata pubblicità di un rotocalco leggete che la tal crema anticellulite ha funzionato “per il 97% delle donne*” producendo risultati miracolosi: “in 1 solo mese di utilizzo, -3 cm circonferenza delle cosce e fianchi, - 60% buccia d’arancia, + 38% tono cutaneo”. Il dato vero, l’unico che invece vi dovrebbe interessare, è quello scritto in piccolo dopo l’asterisco: “Test effettuati su un campione di 24 donne”. I risultati mirabolanti ottenuti su un campione così ristretto non hanno alcun valore statistico, e non si otterrebbero mai su un campione più ampio, per esempio di 1.000 donne, semplicemente perché sui campioni troppo ristretti le leggi della statistica non sono applicabili, neppure approssimativamente.

[torna indietro] [torna su] [tutti gli articoli]