Loi normale et intervalle de confiance

Modéliser la variabilité d'une mesure réelle et estimer une proportion inconnue avec un niveau de certitude contrôlé.

1 La loi normale

Une variable aléatoire $X$ suit une loi normale de paramètres $\mu$ (espérance) et $\sigma$ (écart-type), notée $X \sim \mathcal{N}(\mu,\,\sigma^2)$, lorsque sa courbe de densité est une cloche symétrique par rapport à $\mu$. Plus $\sigma$ est grand, plus la courbe est étalée.

La loi normale modélise toute grandeur résultant d'un grand nombre de petits phénomènes aléatoires indépendants : taille d'individus, erreur de mesure, score moyen à un examen sur un grand groupe.

2 Règle des k sigmas — valeurs à connaître

1 sigma (≈ 68 %)

$P(\mu - \sigma \le X \le \mu + \sigma) \approx 0{,}683$

2 sigmas (≈ 95 %)

$P(\mu - 2\sigma \le X \le \mu + 2\sigma) \approx 0{,}954$

1,96 sigma (95 % exact)

$P(\mu - 1{,}96\sigma \le X \le \mu + 1{,}96\sigma) = 0{,}95$

Symétrie

$P(X \le \mu - a) = P(X \ge \mu + a)$

3 Appliquer les règles

Contexte

La masse $X$ (en g) d'un sachet suit $\mathcal{N}(200,\,10^2)$, donc $\mu = 200$ g et $\sigma = 10$ g.

Calculs

$P(190 \le X \le 210) = P(\mu - \sigma \le X \le \mu + \sigma) \approx 0{,}683$

$P(180 \le X \le 220) = P(\mu - 2\sigma \le X \le \mu + 2\sigma) \approx 0{,}954$

Par symétrie : $P(X \ge 220) = \dfrac{1 - 0{,}954}{2} \approx 0{,}023$

4 Intervalle de confiance pour une proportion

On prélève un échantillon de taille $n$ (grand) dans une population et on observe la fréquence $f$ d'un caractère. La proportion réelle $p$ dans la population est inconnue.

Au niveau de confiance 95 %, un intervalle de confiance pour $p$ est : $I_C = \left[\,f - \dfrac{1}{\sqrt{n}},\;f + \dfrac{1}{\sqrt{n}}\,\right]$.

Interprétation : si l'on répète ce procédé sur de nombreux échantillons, 95 % des intervalles construits contiennent la vraie valeur $p$.

Méthode — construire un intervalle de confiance à 95 %

Identifier $n$ (taille de l'échantillon) et l'effectif observé du caractère.
Calculer $f = \dfrac{\text{effectif observé}}{n}$ (la fréquence).
Calculer la demi-largeur $e = \dfrac{1}{\sqrt{n}}$.
Écrire $I_C = [\,f - e\,;\, f + e\,]$ et conclure : « On estime, au niveau 95 %, que $p \in I_C$. »

Erreurs fréquentes

$\mathcal{N}(\mu,\,\sigma^2)$ : le second paramètre est la variance, pas l'écart-type. Si $\sigma^2 = 25$, alors $\sigma = 5$ (et non $25$).
Oublier la symétrie : $P(X \ge \mu + a) = \dfrac{1 - P(\mu - a \le X \le \mu + a)}{2}$, ce n'est pas la même quantité.
Confondre intervalle de fluctuation ($p$ connu, on encadre $F_n$) et intervalle de confiance ($p$ inconnu, on l'estime à partir de $f$).
Mal interpréter l'IC : une fois calculé, $p$ est soit dedans soit dehors — c'est le procédé de construction qui réussit 95 % du temps, pas cet intervalle précis.