E quando temos três ou mais listas? Podemos utilizar o mesmo procedimento da comparação de duas listas? Sim, mas é preciso fazer uma alteração. Se usamos simplesmente o mesmo limite de 5%, para cada comparação as chances de erro se acumulam de modo exponencial: na primeira comparação temos os 5% de chances de aceitar uma hipótese como verdadeira sendo que ela é falsa (mais especificamente, de aceitar que o resultado tem significância estatística, quando, na verdade, é fruto do acaso - situação que os estatísticos chamam de erro do tipo I), na segunda comparação temos os mesmos 5%; ou seja, com duas comparações temos 1-(0,95)^2 = 9,75% de chance de errar; com três são 14,26%; com quatro, 18,55%; com dez, 40,13% e assim por diante.
Um método para corrigir isso é a correção de Bonferroni: simplesmente divide o nível de significância desejado pelo número de comparações realizadas.
Peguemos as previsões das classificações dos clubes brasileiros no Campeonato Brasileiro de Futebol da Série A de 20102011 feitas por nove jornalistas esportivos. E comparemos com o resultado final. Serão, no total, nove comparações. Se quisermos um nível de 5%, basta dividir 5%/9 e usar esse valor como o nível de aceitação ou rejeição para cada teste. Nas 9 comparações, a probabilidade acumulada de erro será de 4,9%.
A tabela abaixo mostra o resultado.
Todos os testes rejeitaram a hipótese nula de que a classificação prevista é igual à classificação final. Isto é, os palpites dos jornalistas esportivos foram todos furados. Como o palpite da Goldman Sachs para a Copa 2006.