L’importanza
del campione
C’è un solo modo per sapere esattamente quante
palline bianche e quante palline nere ci sono un vaso:
bisogna contarle
Per
fortuna c’è anche un sistema più semplice per stimare
quante sono le palline bianche (o quelle nere):
basta estrarre dal vaso una manciata di palline (il campione
statistico) e contare solo quelle, dando per
scontato che la proporzione palline bianche/palline
nere sarà la stessa in tutto il vaso. Se il campione
è abbastanza grande (dimensione del
campione) ed è selezionato correttamente (metodo
di selezione), allora rappresenterà l’intero
(il vaso) in maniera soddisfacente per la maggior
parte delle applicazioni; ma se invece dimensione e
selezione non sono corrette, tanto valeva tirare a
indovinare. Purtroppo, campioni troppo piccoli o
mal selezionati, o entrambe le cose, stanno alla base
della maggior parte di ciò che leggiamo o peggio
ancora, di ciò che crediamo di sapere.
Facciamo un esempio, per quanto estremo. Supponiamo
che un importante quotidiano mandi a un gruppo di
cittadini un questionario nel quale compare la
domanda: “Ti piace rispondere ai questionari?”.
Sommati tutti quelli debitamente restituiti, il
quotidiano probabilmente pubblicherà un articolo nel
quale dirà che la stragrande maggioranza dei
cittadini, “una percentuale rappresentativa della
popolazione”, adora rispondere ai questionari. La
realtà può essere molto, molto diversa. Infatti, la
maggior parte di coloro che avrebbero risposto: “No,
detesto rispondere ai questionari”, è semplicemente
uscita dal campione nel momento in cui ha
gettato l’odiato questionario nel primo cestino a
portata di mano.
C’è
di peggio. La prossima volta che leggete che
l’Italiano medio si lava i denti 1.05 volte al
giorno, chiedetevi come sia possibile saperlo
veramente. Questo dato statistico può avere qualche
significato solo per qualcuno che volesse sapere cosa
pensano gli Italiani dell’igiene orale quotidiana,
ma non dice molto riguardo alla frequenza con la quale
lo spazzolino entra in contatto con i denti dei nostri
connazionali. Il risultato di uno studio statistico
condotto su un campione non può mai essere
migliore del campione sul quale è basato. E come
spesso succede, poiché i dati vengono filtrati
attraverso strati e strati di manipolazioni
statistiche e ridotti a una media (quasi sempre con la
virgola, così sembra più precisa), il risultato si
allontana sempre di più da quello che si sarebbe
ottenuto semplicemente dando un’occhiata più
accurata al campione. Il quale, per avere valore, deve
essere rappresentativo, ossia deve avere almeno
approssimativamente la stessa distribuzione di
caratteristiche della popolazione dalla quale è stato
estratto.
Inoltre, l’affidabilità di un campione può essere
distrutta da fonti visibili di errore, ma anche
da fonti che non lo sono. In altre parole, anche se
nella vostra analisi del campione non riuscite a
trovare una fonte dimostrabile di errore, mantenete
sempre un certo scetticismo sul risultato perché
è molto, molto probabile che da qualche parte ci sia
una possibilità di errore. C’è sempre un
errore.
La campionatura randomica (casuale) è il
metodo base della statistica. Qui, il campione viene
selezionato per puro caso da un “universo”, ovvero
da un intero del quale il campione è una parte: un
nome ogni dieci dall’elenco telefonico, un individuo
ogni venti in una stazione ferroviaria. Come si vede, l’universo
di riferimento è sempre ristretto: nel primo
caso, non tutti compaiono nell’elenco telefonico,
mentre nel secondo non tutti sono in stazione nelle
due ore in cui una rete televisiva intervista i
passanti a casaccio. La “prova del nove” del
campione randomico consiste infatti nel chiedersi se
ogni elemento dell’intero ha uguali probabilità di
essere presente all’interno del campione
considerato. Quello “puramente casuale” è l’unico
tipo di campione che può essere analizzato con
fiducia con i mezzi della teoria statistica, se non
fosse che ottenerlo è talmente difficile e costoso
che per la maggior parte delle applicazioni si ricorre
al suo sostituto più economico, il campione
casuale stratificato, che si ottiene dividendo
l’universo di riferimento in molti gruppi in
funzione della loro prevalenza (diffusione) nota.
I problemi cominciano qui: l’informazione sulla
prevalenza potrebbe essere errata. L’interpretazione
potrebbe essere errata. Ottenere un campione
casuale entro una data stratificazione è quasi
impossibile. Per fare un esempio, supponiamo di
iniziare con una lista che comprende tutti gli
Italiani e di intervistare solo quelli scelti a caso,
ma il costo per farlo è proibitivo. Allora scegliamo
di intervistare le persone che camminano per strada,
ma così escludiamo tutte le quelle che in quel
momento sono a casa. Bussiamo a tutte le porte giorno
dopo giorno, ma così perdiamo tutti quelli che in
quel momento sono al lavoro. Decidiamo allora di fare
le interviste solo alla sera, ma così trascuriamo
tutti quelli che sono al cinema, o in pizzeria, o al
bowling con gli amici. È chiaro che questo tipo di
operazione finisce presto per diventare una lotta
impari contro l’errore, una battaglia che le
aziende (serie) che si occupano di ricerche
statistiche e di analisi dell’opinione pubblica
conducono ogni giorno, senza vincerla mai. Perciò,
leggere che: “Il 54% degli Italiani è a favore”
di qualcosa deve spingere a chiedersi, un secondo
dopo: “Il 54% di quali Italiani?”
Infine,
la presentazione di un risultato statistico basato su
un campione troppo piccolo costituisce una
delle modalità di vera e propria truffa tra le più
diffuse e convincenti. Nella patinata pubblicità di
un rotocalco leggete che la tal crema anticellulite ha
funzionato “per il 97% delle donne*” producendo
risultati miracolosi: “in 1 solo mese di utilizzo,
-3 cm circonferenza delle cosce e fianchi, - 60%
buccia d’arancia, + 38% tono cutaneo”. Il dato
vero, l’unico che invece vi dovrebbe
interessare, è quello scritto in piccolo dopo
l’asterisco: “Test effettuati su un campione di 24
donne”. I risultati mirabolanti ottenuti su un
campione così ristretto non hanno alcun valore
statistico, e non si otterrebbero mai su un
campione più ampio, per esempio di 1.000 donne,
semplicemente perché sui campioni troppo ristretti le
leggi della statistica non sono applicabili, neppure
approssimativamente.
[torna
indietro] [torna su] [tutti
gli articoli]

|