Statisticolare
Pubblicato da Davide su Marzo 4, 2008
Questo è uno di quei post che contribuiscono a farmi odiare.
Un dannato pork chop express se mai ne è esistito uno.
Scusatemi.
Durante la nostra ultima discussione, Gamberetta ha citato i dati dell’Istat sui lettori in Italia.
In particolare, l’affermazione che prenderemo in considerazione qui è la seguente…
la percentuale di chi ha letto il suo ultimo libro dopo averlo scaricato da Internet è dello 0,1% (in assoluto, facendo due conti sono 24.145 persone).
Non credo proprio.
Perché è vero, il testo afferma che c sono circa 24 milioni di lettori attivi in Italia, ma i signori dell’istat non hanno chiesto a ventiquattro milioni di persone come si siano procurate il loro ultimo libro.
Lo hanno chiesto ad un campione.
Lo 0,1% di quel campione ha risposto “prelevato gratuitamente via Internet”.
A questo punto, l’Istat ha deciso che il campione era sufficientemente rappresentativo da essere esteso all’intera popolazione di 24.000.000 di lettori.
Il campione considerato dall’Istat è di “circa” 54.000 persone.
Se 1 su mille (lo 0,1%) ha scaricato un libro gratis nell’ultimo anno, fa un totale di 54 persone.
Questo è il nostro unico dato certo.
È lecito a questo punto estendere il risultato alla popolazione e affermare che circa 24.000 persone hanno scaricato un libro nell’ultimo anno?
No.
In prima battuta, si dice di solito che più grande è il campione, maggiore è l’affidabilità del risultato.
Da questo punto di vista, 54.000 sembrerebbe buono - è il 2,25% della popolazione studiata, che non è poi male.
Ma qui c’è l’inghippo.
Perché l’estendibilità non dipende solo dalle dimensioni del campione, ma anche dalla percentuale di persone che hanno risposto in un certo modo alla mia domanda.
Ciò che conta, infatti, è l’intervallo di confidenza - praticamente il margine di errore che io considero accettabile sulla mia previsione.
Complicato?
No, vedrete!
Nell’estendere i risultati dello studio del campione alla popolazione, entra un grado di incertezza.
Se lo 0,1% del mio campione ha risposto “prelevato gratuitamente via Internet”, allora posso prevedere con un certo grado di sicurezza (di solito il 95%) che più o meno lo 0,1% della popolazione risponderebbe “prelevato gratuitamente via Internet” se glielo chiedessi.
Ma quanto vale quel “più o meno”?
Incredibile a dirsi, sta a me deciderlo - e tanto più stretto sarà il margine di errore che io deciderò di accettare, tanto più grande dovrà essere il campione che andrò a studiare.
Allora, nel nostro caso, qual’è l’errore “accettabile”?
Di sicuro, dovrà essere più piccolo di 0,1%, la mia originaria percentuale di risposte.
Diciamo allora che sia un errore di più o meno 0,01% - un margine di errore del 10% sulla mia previsione.
E ora facciamo due conti…
Per essere sicuro al 95% che una percentuale compresa fra lo 0,09% e lo 0,11% della popolazione di 24.000.000 risponda “prelevato gratuitamente via Internet” dovrei averlo chiesto ad un campione di circa diciannove milioni e mezzo di persone.
Chiedo a venti milioni, e sarò relativamente sicuro che 2160-2640 persone abbiano scaricato un libro gratis dalla rete negli ultimi dodici mesi.
Questo è palesemente ridicolo: il campione è troppo grosso, allora allargo le maglie del mio metodo.
Mi accontento di un intervallo di confidenza di più o meno 0,05% (un errore del 50%) nel risultato.
Per essere sicuro al 95% che una percentuale compresa fra lo 0,05% e lo 0,15% della popolazione di 24.000.000 risponda “prelevato gratuitamente via Internet” mi basterebbe averlo chiesto ad un campione di circa tre milioni e trecentomila persone.
Chiedo a tre milioni e mezzo di persone, e sono discretamente certo che 1200-3600 persone abbiano scaricato un libro gratis da internet nell’ultimo anno.
Il campione è ancora enorme, e la mia incertezza sta crescendo.
E vada, mi accontento di un intervallo di confidenza di 0,09% (un errore del 90%) nel risultato.
Per essere sicuro al 95% che una percentuale compresa fra lo 0,01% e lo 0,19% della popolazione di 24.000.000 risponda “prelevato gratuitamente via Internet” dovrei averlo chiesto ad un campione di circa un milione e centoventimila persone.
Chiedo ad oltre un milione di persone e sono discretamente certo che 240-4560 persone abbiano prelevato gratis dei file di testo da internet nell’ultimo anno.
….
Ergo, l’affermazione che 24.000 persone hanno scaricato un testo gratis da internet nell’ultimo anno è statisticamente insignificante.
Potrebe anche essere vera - ma non abbiamo i dati per dimostrarlo.
Un campione di 54.000 individui su una popolazione di 24.000.000 di persone mi fornisce infatti un intervallo di confidenza di 0,42%.
In altre parole, sulla base delle risposte ottenute dal campione, posso affermare che un numero che oscilla fra zero e quasi 125.000 persone ha scaricato file di testo gratis dal web.
Un risultato inammissibile.
Tanto varrebe sparare numeri a caso.
Nei dati Istat sulla lettura pubblicati, qualsiasi valore inferiore all’1% porta con sé un errore troppo grande per poter essere considerato accettabile.
E qui chiudo e vado a dormire….
Pubblicato su pork chop express | Non ci sono Commenti »



















Teraku Takashi







Numeri agghiaccianti.
L’avvio me lo dà il blog Tutta Casa & Scuola (lo trovate nel blogroll).