mardi 12 novembre 2013

Pourquoi p. n'est pas la probabilité que l'hypothèse nulle soit vraie

Un étudiant en sciences humaines est rapidement confronté à ces quelques caractères: "p. = " suivi d'un nombre, dont on espère généralement qu'il sera inférieur à .05. Mais que veut dire ce p.? Malgré une exposition répétée à des cours de statistiques, de nombreux étudiants l'ignorent et, plus grave, leurs enseignants et parfois les auteurs de manuels de statistiques eux-mêmes se trompent également. Une erreur commune consiste à croire que p. correspond à la probabilité de l'hypothèse nulle au vu des données. Ce qui est faux et reflète une incompréhension de l'approche d'inférence statistique communément utilisée en sciences humaines et biomédicales. Celle-ci fut développée par Jerzy Neyman & Karl Pearson.

Karl Pearson & Jerzy Neyman


Selon ces auteurs, ce "p." correspond en effet à une probabilité. Mais une probabilité de quoi?

Remarque: si vous avez déjà quelques connaissances dans le domaine de l'inférence statistique, passez directement ci-dessous

Pour le savoir, il faut en effet revenir au concept d'hypothèse nulle. L'hypothèse nulle, c'est l'hypothèse "par défaut", le modèle simple dont se distingue l'hypothèse théorique que l'on pose. Elle concerne l'ensemble de la population qui nous intéresse potentiellement. L'hypothèse nulle postule généralement une absence de relation entre la variable indépendante et la variable dépendante. Par exemple, si je m'attends à ce que des adolescents obtiennent  une meilleure performance à un test de mathématiques avant qu'après avoir effectué un entraînement, l'hypothèse nulle pourrait correspondre au fait que, parmi tous les adolescents scolarisés (l'ensemble des personnes qui nous intéressent potentiellement),  la performance moyenne au test ne diffèrerait pas avant et après l'entraînement. L'hypothèse alternative consisterait à suggérer que l'entraînement affecte, voire augmente, la performance. 

Problème 1: on n'a généralement pas accès à cette population dans son entièreté. On doit se contenter du plus petit groupe de personnes qu'on a potentiellement sous la main: l'échantillon. On recrute (par exemple) 20 adolescents. On leur fait passer le test avant et après l'entraînement. Imaginons qu'ils obtiennent une note légèrement meilleure après cet entraînement (2 points de plus à un test sur 20). Quelle conclusion en tirer? 

Problème 2: Même si l'entraînement n'avait aucun effet (l'hypothèse nulle est vraie), il est très peu probable que les scores soient exactement identiques avant et après l'entraînement et donc que leur différence soit nulle. La différence de performance entre post- et pré-entraînement observée dans l'échantillon peut être due à des facteurs purement aléatoires. Pour s'en convaincre, il suffit de générer de groupes de 20 nombres aléatoires dans un tableur comme Microsoft Excel. Si on calcule la moyenne de ces deux groupes de 20 nombres, ces moyennes seront plus que probablement différentes (tout comme si je jette 20 fois une pièce de monnaie, il est fort probable que je n'obtienne pas exactement 10 piles). Donc: comment savoir si ma différence observée est susceptible d'être due au hasard? Ou si elle reflète une différence réelle dans la population? 

La solution 

Là nous avons de la chance: il se trouve que moyennant le fait que certaines conditions, que je ne vais pas détailler ici, soient remplies, on peut estimer les chances d'apparition de chaque valeur possible de la différence entre nos deux passations du test (en tenant compte en particulier de la taille de l'échantillon et de la variabilité de la différence de performance avant-après d'un sujet à l'autre) si l'hypothèse nulle est vraie. En d'autres termes, on peut estimer la probabilité d'obtenir par hasard (c'est-à-dire si l'entraînement ne joue aucun rôle) une valeur de la différence entre les scores post et pré-entraînement au moins aussi élevée que celle qu'on a obtenue. C'est grâce à la distribution d'une statistique (ici le fameux "t") que l'on peut inférer cette probabilité, qui correspond au p. Pour d'autres types de comparaisons, on utilise d'autres statistiques, mais la logique est la même.

Comprendre la logique de l'inférence

La logique de l'inférence classique de Neyman-Pearson est la suivante: si ce p  est inférieur à un seuil que l'on définit a priori, on rejette l'hypothèse nulle (et on retient donc notre hypothèse alternative). Ce seuil, qui vaut typiquement 0,05 (5%), reflète en fait un taux d'erreur. Il signifie que si l'on reproduit cette procédure un grand nombre (voire une infinité) de fois sur des échantillons différents, mais provenant de la même population (l'hypothèse nulle étant donc vraie), nous nous tromperons dans 5% des cas maximum (en rejetant l'hypothèse nulle alors qu'elle est vraie). Dit autrement: si chaque fois que p est < .05, je rejette l'hypothèse nulle et qu'elle est vraie, je me tromperai au pire dans 5% des cas (je commettrai alors ce qu'on appelle "l'erreur de première espèce"). 

De ce point de vue, il importe de remarquer que la valeur exacte de p est sans importance. Tout ce qui compte est de savoir si elle est inférieure ou supérieure au seuil. Que dans un cas, mon p soit de .01 ou .001 est donc sans pertinence aucune du point de vue du rejet de l'hypothèse nulle si mon seuil est à 5%. Si elle est supérieure, le résultat n'est pas significatif. Un point c'est tout...même s'il est tentant de parler de résultat "marginalement" significatif (voir ici, un inventaire à la Prévert des adjectifs utilisés pour qualifier un résultat non significatif mais proche du seuil). 

Et pourtant on croit souvent que p représente la probabilité de l'hypothèse nulle étant donné les données. Ceci reflète une erreur logique: p reflète la probabilité des données étant donné l'hypothèse nulle. C'est là une chose bien différente.

En fait, l'interprétation du p repose sur une erreur logique. Voici en gros comment beaucoup de gens interprètent l'usage du p:

1. Si l'hypothèse nulle est correcte, alors p doit être > .05.
2. p est inférieur à .05.
3. Donc, l'hypothèse nulle est incorrecte (ou très probablement incorrecte).

La structure de ce raisonnement est correcte lorsqu'on l'applique à des propositions qui ont une valeur de vérité claire, qui sont soit vraies, soit fausses. Par exemple, le syllogisme suivant est valide:

1. Si Michel est physicien, il sait ce qu'est une intégrale
2. Michel ne sait pas ce qu'est une intégrale
3. Donc Michel n'est pas physicien.

Mais il ne s'applique pas à des raisonnements probabilistes. Par exemple, le raisonnement suivant est absurde:

1. Si un individu est belge, il y a peu de chances qu'il soit roi (car il y a peu de rois en Belgique).
2. Philippe est roi.
3. Donc il y a peu de chances qu'il soit belge.

Or le rejet de l'hypothèse nulle repose sur une raisonnement probabiliste: il correspond, dans sa structure, à l'exemple de Philippe et non à celui de Michel. Une fois encore, la probabilité d'une hypothèse au vu des données n'est pas identique à la probabilité des données au vu de l'hypothèse.

Pour s'en convaincre, prenons le cas suivant proposé par Cohen (1994): une échantillon contient 1000 personnes, dont 21 sont schizophrènes.  Un test mis au point par un psychiatre permet de diagnostiquer la schizophrénie et en détecte en effet 20 sur les 21. En revanche, ce test n'étant pas parfait, il diagnostique aussi 30 personnes normales comme schizophrènes et le schizophrène restant comme normal. Enfin, il détecte (correctement) 949 personnes normales comme telles. Cela donne donc le tableau suivant:


"Vérité"
Diagnostic
Normal
Schizophrène
Total
Négatif (Normal)
949
1
950
Positif (Schizophrène)
30
20
50

979
21
1000

Dans ces données, la probabilité d'être diagnostiqué comme schizophrène si on est normal (30/979 = 0,03) est bien inférieure à la probabilité d'être normal si on est diagnostiqué comme schizophrène (30/50 = 0,6). En d'autres termes, la probabilité d'être diagnostiqué comme schizophrène si l' "hypothèse nulle" (ici être normal) est vraie ne nous dit rien sur la probabilité que "l'hypothèse nulle" soit vraie si on est diagnostiqué comme schizophrène.

A la lumière de ces exemples, il devrait apparaître clairement qu'obtenir une valeur de p de .02 ou de .001 ne change rien quant à la probabilité relative de l'hypothèse nulle. L'une n'est pas plus "significative" que l'autre. Dans la logique de Neyman-Pearson, nous nous contentons de comparer ce p au seuil défini a priori et basta. Si p s'avère inférieur à ce seuil, on peut être confiant que le taux d'erreur que nous commettrons sur un grand nombre de tests de ce type ne sera pas supérieur au seuil. Mais p en soi n'a aucun autre intérêt que de savoir s'il est inférieur ou supérieur au seuil. Le reste, au sens de l'approche de Neyman-Pearson, c'est de la rhétorique souvent mal placée.  

Références : 

Cohen, J. (1994). The earth is round (p<. 05). American psychologist49(12), 997.

Dienes, Z. (2008). Understanding psychology as a science: An introduction to scientific and statistical inference. Palgrave Macmillan.


Aucun commentaire: