29 setembro, 2007

Incerteza estatística

As discussões desse mês no Roda de Ciência versaram sobre a dificuldade em se comunicar a incerteza. Não só aos acadêmicos, mas principalmente ao público leigo, que, acostumados ao maniqueísmo do "preto ou branco", não se sentem confortáveis com estatísticas e probabilidades que sejam diferentes e nos deixem em tons de cinza. As discussões foram excelentes e eu, aos 45 minutos do segundo tempo, deixo aqui minha humilde contribuição pessoal.

(Leia o resto aqui.)

8 comentários:

João Carlos disse...

Só para não deixar passar a oportunidade de divulgar um dado escabroso:

Um dia desses, eu estava atravessando a Baía de Guanabara em uma Barca e, por absoluta falta do que fazer, comecei a xeretar os papéis que o passageiro a meu lado (com toda a pinta de advogado) estava lendo (um processo qualquer de indenização). O que me chamou a atenção foi um dado de um laudo no processo: a vida média de um cidadão fluminense (do Estado do Rio de Janeiro; não confundir com "Carioca" que é da cidade do Rio de Janeiro) é de, apenas, 38 anos!... (provavelmente, a média dos Cariocas é ainda menor...)

O que mostra que, mais do que nunca, "existem mentiras, mentiras deslavadas e estatísticas"... Aí estão incluídos desde os natimortos, até os habitantes do Pavilhão Geriátrico (como yours, truly). Só que este é o "dado oficial" para calcular indenizações pela morte de alguém neste estado!.

Portanto, se o gerontossauro aqui morresse vítima de alguma bala perdida, minha família estaria "devendo" ao Estado cerca de 19 anos que eu vivi além da "média"...

Maria Guimarães disse...

vocês tocaram num ponto central. a estatística ajuda a contar meias verdades, a não ser que o freguês saiba entendê-la. as pessoas em geral não sabem e os veículos de divulgação de ciência não costumam entrar nessa dimensão. em grande parte porque os jornalistas também não sabem estatística. não sei como resolver, mas ter isso em mente é um bom começo...

Lucia Malla disse...

Maria, um amigo meu comentou que a estatística na realidade mede as incertezas. Se esse fato fosse explicitado, explicado e clarificado aos jornalistas e responsáveis por divulgação, também acho q já seria um bom começo para educar a população cientificamente.

Daniel Doro Ferrante disse...

Oi Pessoal,

Vamos ver se, depois do dia de hoje, eu ainda consigo concatenar minhas idéias o suficiente para produzir esse comentário: Dedos cruzados (mas não demais, senão não consigo digitar ;-).

Veja, eu acho que as estatísticas não têm nenhum problema... meu problema tem nome: (A) tamanho da amostra estatística; e (B) o fulano que lê e 'acredita' SEM 'pensar'.

Mais detalhadamente: o problema de (A) é o seguinte: NÃO existem "estatísticas" com meia-dúzia de amostras! Se a população fluminense (pra ficar no exemplo) é de 'X' pessoas e as estatísticas não forem "suficientes" (eu já explico o quanto é suficiente), os dados assim obtidos NÃO têm significado NENHUM! Então, o fulaninho (B), acima, que acreditar nesses dados, o está fazendo por pura preguiça mental (assumindo que tal indivíduo tenha tido um mínimo de contato com essa área do saber).

O tamanho do "espaço amostral" para que os resultados estatísticos sejam "confiáveis" é algo variável; não dá pra falar: "Ah, vamos examinar 10.000 pessoas e pronto." Dez mil pessoas dum total de 200 MILHÕES (para o país todo!) representa 0.00005 do total, i.e., não passa de 0.005% [da população toda]!!!

Então, que significado tem uma pesquisa sobre a mortalidade infantil brasileira se o pessoal só avalia 10.000 pessoas?!!! E olha que conseguir ter uma amostragem de 10.000 pessoas é um feito e tanto: Quem faz pesquisa de campo em Sociologia sabe bem disso.

Pois bem, pensem comigo (o que nunca é coisa boa de se fazer): Se vc vai fazer uma pesquisa com 2 alternativas, é preciso que vc tenha como espaço amostral, no mínimo, 50% do total; se sua pesquisa tem 4 alternativas, é preciso que seu espaço amostral tenha, no mínimo, 25% do total; e assim por diante.

Agora, é claro que esse argumento "engana"... ele engana porque te leva a acreditar que se vc tiver uma pesquisa aonde fulano pode responder "qualquer coisa", aí o tamanho do espaço amostral diminui arbitrariamente! E não é bem por aí. Aliás, não é NADA por aí. O que esse exemplo acima quer mostrar é que pra vc pode ter dados estatisticamente confiáveis sobre cada uma das suas alternativas, é preciso que vc pesquise uma GRANDE parcela do total.

Agora, imaginem só o tamanho do espaço amostral dessa pesquisa que o João citou?! Aliás, da próxima vez que vcs estiverem assistindo TV e ouvindo o noticiário, prestando atenção a alguma estatística... lembrem do tamanho do espaço amostral: Quando o cara disser que a pesquisa foi conduzida com "5000 pessoas" ou com "10000 pessoas"... vcs já podem DESLIGAR o resultado — ele não importa NADA, não é estatisticamente confiável!

Agora, claro que o repórter não vai dizer isso, né?! Tá falando sério... o cara vai dar uma notícia cujo conteúdo é nulo?!!! Tem que tá de sacanagem...: "Pesquisa tal é feita com tantas pessoas e tem o seguinte resultado. Mas não se iludam, isso aí não significa lhufas porque o espaço amostral é patético!" :-) It'd be a cold day in hell antes disso acontecer... ;-)

Mas, se vc tirar tudo isso... as notícias ficam sem "cor", ficam "opacas"... e, aí, perde-se todo o sensacionalismo... e, evidentemente, todas as vendas/lucros vão pro brejo. E, claro, isso ninguém quer! Então... pau nos números! :-P

A culpa não é nem da estatísticas, nem dos dados, nem da matemática, nem da ciência: "A culpa é de quem NÃO sabe do que está falando!" (Pra variar, a culpa é de quem não sabe o quê fala... :-P)

Portanto, é lógico que é nossa obrigação lembrar de todos esses detalhes quando damos uma notícia... principalmente notícias científicas que são baseadas em estatísticas: Se o repórter não souber DETALHADAMENTE como aqueles dados foram obtidos, ele certamente vai distorcer TODA a notícia! Tá aí o "global warming" que não me deixa mentir! Isso pra não falar em todas as notícias de "genética", "biologia", "fármacos" e afins. E olha que eu nem comecei a falar dos manés que NÃO fazem suas estatísticas corretamente!!! E disso não falta gente... é cada uma que mais parece duas!

Então, o repórter TEM que estar atento não só para os detalhes de como a pesquisa estatística foi feita, mas também para os detalhes de como aquele grupo de pesquisa fez seus cálculos! Senão, é melhor nem começar a escrever a matéria... porque certamente vai falar besteira! :-P

Isso tudo posto... deixo um aviso ainda mais 'heavy handed': Em matemática, tudo que é feito um número DISCRETO de vezes... não funciona! É preciso um CONTÍNUO! Essa é a diferença entre "estatística" (conjuntos discretos) e "probabilidade" (conjuntos contínuos).

Vcs querem pensar em como esse fato atrapalha as coisas... pensem no que vai acontecer quando a galera começar a colocar a Índia e a China nos "números": de repente, o espaço amostral vai aumentar exponencialmente (1.2 bilhões da Índia e outros tantos na China)! A galera só começa a entender "propriedades de escala" quando percebe que a "estatística" não funciona direito nesses casos... 30% da Índia é 50% a MAIS que o Brasil!!!

Pois é: efeitos de escala em conjuntos discretos são uma coisa de capeta! Mas, ..., essa é pra outra vez! ;-)



[]'s!

João Carlos disse...

Dando por bem compreendido o que Daniel explicou, existe outro ponto que eu queria salientar, no exemplo que eu apontei.

Eu imagino que aquele cálculo seja obtido de um somatório dos registros de óbitos (o Laudo era do Instituto Médico Legal) em um período não inferior a um ano. Um somatório das idades dos óbitos verificados, dividido pelo número total de defuntos. Considerando que o Estado do Rio de Janeiro tem uma população maior do que muitos países da Europa, o "espaço amostral" até que não é desprezível... O que - no meu entender - não é válido é o número frio (sem trocadilho) que se obtém com esse raciocínio simplista.

Um jogo de palavras muito usado nos States diz que "figures don't lie, but liars figure".

Osame Kinouchi disse...

Olha Daniel, eu nao ia comentar seu comentario porque as vezes parece que fico que cutucando... Mas acho que essa nao vai dar para passar... nao por voce, que sabe se informar, mas pelos leitores do blog.

Olha, vou dizer uma coisa mas nao eh um argumento de autoridade (que vc detesta). Eu dou aulas de estatistica e o ponto alto do curso é justamente entender porque 2000 pessoas podem representar bem uma populacao de 200.000.000. Isso basicamente vem do fato de que se a variavel x tiver distribuicao
P(x) com variancia sigma^2, entao a distribuicao dos valores medios amostrais (ou seja, as medias calculadas dentro de amostras de tamanho n pequeno) tem variancia sigma^2/n. Assim, dado que a variancia eh menor, o valor medio dentro de uma amostra eh um bom preditor do valor medio populacional. Bom, eu nao preciso ensinar o teorema do limite central para vc, concorda?

Assim, sua afirmativa de que a amostra deveria ser de ordem do tamanho da populacao eh simplesmente absurda.

Amostras pequenas funcionam (vc usa estatistica de Student, por exemplo) desde que vc consiga controlar ou eliminar bem os outros fatores (erros sistematicos de amostragem etc, por exemplo, so entrevistar pessoas da classe A e B para ver o que acham do governo Lula...

Sabe qual eh o problema? Eh que voce, como eu, nao tivemos curso de Estatistica na graduacao... Acho que isso faz falta... Em todos os cursos de graduacao eu acho que se deveria ter pelo menos um semestre de Estatistica, mesmo que seja frequentista... Bayes fica pra depois...

Lucia Malla disse...

Osame, pra vc ficar feliz: o curso de graduação q eu fiz (numa federal) era obrigatório 1 ano de estatística pra se formar em biologia. Foi fundamental, em minha opinião. :)

Unknown disse...

Eu também estudei durante 1 ano no curso de biologia, isso em 1969.
Fico pensando se essa estatística em questão não seria um factóide do tipo que costumamos ver na mídia.
Essa mesma idade, eu já vi como 50, como 65 e como 70, depende do para que.
Não digo que a culpa é da estatística, mas que utilizam, utilizam.
abs rogerio