Quand on calcule la variance, on prend les différences au carré par rapport à la moyenne, et on en fait la moyenne. Mais, contrairement à ce qu’on nous a appris à l’école, quand on traite un échantillon, on divise le total par éléments, pas par . Aussi connue sous le nom de Correction de Bessel, elle est réputée pour donner un résultat plus précis de la variance estimée, en réduisant le biais dans les données. Je sais pas pour vous, mais au début j’ai trouvé ça bizarre. Donc plutôt que de prendre ça pour argent comptant, j’ai voulu être sûr de comprendre la raison de cette particularité.
L’intuition
Quand on calcule l’écart moyen d’un échantillon (la variance), on utilise les données elles-mêmes pour définir le centre. Cela crée un biais — la moyenne de votre échantillon est faite sur mesure pour être aussi proche que possible de vos points de données. Du coup, ça fait intrinsèquement paraître les écarts plus petits qu’ils ne le sont réellement.
Vous pouvez penser à la moyenne de votre échantillon comme un compromis. C’est la valeur la plus proche de chaque élément de votre échantillon, mais pas de la vraie population. Elle se positionne là où elle est pour minimiser les écarts (c’est-à-dire les différences au carré). Si vous aviez la vraie moyenne de la population (ce qui n’arrive jamais), les écarts par rapport à la moyenne seraient plus grands.
Donc si on divise par au lieu de , le résultat sera plus grand, donc plus proche de la moyenne de la population.
Un exemple
On estime le nombre de cartes Pokémon par enfant dans une école. On échantillonne trois enfants :
- Enfant A : 50 cartes
- Enfant B : 60 cartes
- Enfant C : 70 cartes
Moyenne de l’échantillon = 60. Écarts : -10, 0, +10. Au carré : 100, 0, 100.
Si on divise par (3) :
Mais cela ne représente que la variance pour votre échantillon, c’est-à-dire trois enfants. En réalité, si on dit que la population totale est toute l’école. Il peut y avoir un enfant avec 40 cartes, un autre avec 75 cartes. La vraie variance de la population (si on pouvait mesurer tout le monde) sera toujours plus élevée. Dans ce cas, si on ajoute les deux autres enfants :
Écarts : -20, -10, 0, +10, +15. Au carré : 400, 100, 0, 100, 225.
On peut voir que c’est assez différent du résultat qu’on obtient en divisant les écarts au carré de l’échantillon par . Maintenant, si on divise la somme des écarts de l’échantillonpar (2) :
Bien sûr, ce n’est pas non plus la vraie variance, mais c’est nettement plus proche d’elle que le résultat initial.
Ce qu’il faut retenir
On utilise parce que la moyenne de votre échantillon est biaisée. Il ne s’agit pas de faire compliqué — il s’agit de corriger le fait que lorsque vous faites une estimation en utilisant un échantillon d’une population, votre écart moyen sera toujours plus petit que celui de la population entière.