Ch.5 Comparaisons Statistiques

PDF

Vidéo

Calculatrice

Introduction

Statistiques >

Comparaisons statistiques

Nous présentons dans ce chapitre un raisonnement nouveau. Son inventeur, au début de ce siècle, avait pris le pseudonyme de Student. Le problème qui lui était posé était le suivant: l’engrais a-t-il une influence sur le rendement des cultures de pomme de terre ? Pour le résoudre, Student imagine de choisir 4 parcelles. Chacune d’elles est divisée en deux, et on la cultive en traitant l’une des moitiés choisie au hasard, avec de l’engrais et l’autre non. Après la récolte, on calcule les rendements et, pour une parcelle donnée, la différence de rendements entre les deux moitiés avec engrais et sans engrais. Les 4 différences obtenues sont: {11, 30, -6, 13}. Student convient de considérer ces valeurs comme des réalisations d’une variable aléatoire D. Il fait alors l’hypothèse que l’engrais n’a pas d’influence. Si cette hypothèse est vraie, la moyenne E(D) de la variable D est nulle. La démarche se poursuit par une sorte de raisonnement par l’absurde, en vérifiant si les valeurs observées peuvent être considérées comme compatibles ou non avec E(D) = 0. Si elles sont incompatibles, l’hypothèse faite doit être remise en cause, et l’on peut conclure à l’influence de l’engrais... Ce raisonnement, théorisé plus tard par Neyman et Pearson, est appelé le test d’hypothèse.

1 - Tests d'hypothèse

Théorie de Neyman et Pearson

On suppose donnée une certaine variable aléatoire X dont la loi de probabilité dépend des hypothèses que l’on désire tester. Plus précisément, on suppose qu’il existe plusieurs hypothèses H0, H1,..., Hn parfaitement connues (qui peuvent être en nombre fini ou non, dénombrable ou non) et que la loi de probabilité dépend de l’hypothèse vraie. Le test va permettre de porter un jugement sur l’hypothèse faite et d’évaluer le degré de validité du jugement, cela à partir de la valeur prise par X.

Nous étudierons d’abord le cas où l’on fait deux hypothèses simples H0 et H1. Une hypothèse est dite simple si elle définit complètement et d’une manière unique la loi de probabilité de X; sinon, elle est dite composite. C’est ainsi, par exemple, qu’en présence d’un lot de pièces distinguées en " convenables " et " défectueuses ", les deux hypothèses:

sont des hypothèses simples puisque chacune d’elles définit entièrement le lot. Tandis que les deux hypothèses:

sont des hypothèses composites puisque ni l’une ni l’autre ne définit entièrement le lot.

Supposons donc qu’il existe deux hypothèses simples H0 et H1 couvrant l’ensemble des possibilités; cela veut dire que l’une ou l’autre des deux hypothèses H0 et H1 est réalisée nécessairement. Dans ce cas, il est possible d’émettre l’un des deux jugements:

On peut symboliser cet ensemble par le tableau ci-dessous où figurent, en lignes les états possibles et en colonnes les jugements portés. Le tableau contient les conséquences des différentes combinaisons.

Parmi les deux hypothèses H0 et H1, il en existe en général une dont le rejet à tort a des conséquences plus fâcheuses que pour l’autre. Il est donc normal de ne pas traiter H0 et H1 de façon symétrique. Admettant alors que H0 représente une circonstance favorable et H1 une circonstance défavorable, on peut se tromper de deux manières:

C’est exactement en ces termes que se posait le problème du contrôle de réception, où ces deux types d’erreur correspondaient à des préoccupations toutes différentes: celle du fournisseur d’une part, et celle du client d’autre part.

Pour relier, maintenant, le jugement porté à l’observation de la variable X, on opère ainsi:

Pour choisir le domaine w, on impose en général deux conditions:

Il importe de noter en effet que la première condition ne suffit pas, sauf cas très particulier, à définir w de façon unique.

Il est possible maintenant de compléter le tableau précédent en indiquant les règles de jugement et les probabilités pour qu’il soit correct ou faux:

Un tel mode de raisonnement est appelé test d’hypothèse. Le complément à l’unité de β, soit (1-β) est appelé puissance du test: un test est d’autant plus puissant, pour un risque de première espèce fixé, que le risque de deuxième espèce est plus petit.

Détermination de la région d'acceptation

Si l’on note p0(x|H0) et p1(x|H1) les densités de probabilité de X, respectivement dans le cadre des hypothèses H0 et H1, les deux conditions précédentes s’expriment par les deux équations suivantes:

w p0(x)dx = 1-α
w p1(x)dx = β minimum

On démontre qu’elles sont satisfaites s’il existe une constante positive λ, telle que pour x appartenant à w:

p1(x) < λ.p0(x)    (1)

sous la contrainte:

w p0(x)dx = 1-α    (2)

La démonstration qui suit n’est pas essentielle.

Supposons qu’une telle constante λ existe et considérons la quantité:

F(w) = w p1(x)dx - λ.w p0(x)dx

En appelant Iw(x) la fonction indicatrice du domaine w, qui prend la valeur 1 si x appartient à w et la valeur 0 sinon, on peut écrire F(w) sous la forme:

F(w) = Iw(x) (p1(x) - λ.p0(x)) dx

On constate que F(w) est négatif donc minimum pour:

Iw(x)= 0	 si ⁢ p1(x) - λ.p0(x) ⩾ 0
Iw(x)= 1	 si ⁢ p1(x) - λ.p0(x) < 0

Or, lorsque F(w) est minimum sous la condition (2), la quantité w p1(x)dx, c'est-à-dire β, l’est évidemment aussi. Appliquons ce résultat à deux exemples.

Test sur une proportion

Supposons qu’ayant prélevé un échantillon de n pièces dans un certain lot, on veuille tester l’hypothèse:

Le nombre de déchets dans l’échantillon est une variable aléatoire définie par les probabilités p0(k) si H0 est vraie et p1(k) si c’est H1:

p0(k)= Cnk ϖ0k(1-ϖ0)n-k
p1(k)= Cnk ϖ1k(1-ϖ1)n-k

La condition (1) s’écrit:

Cnk ϖ1k (1-ϖ1)n-k < λ.Cnk ϖ0k (1-ϖ0)n-k

Et, après simplification et passage aux logarithmes, on obtient:

k log(ϖ01) + (n-k) log(1-ϖ0/1-ϖ1) + log(λ) > 0

soit, pour ϖ10:

k < [n log(1-ϖ1/1-ϖ0) - log(λ)] / [log(ϖ10) - log(1-ϖ1/1-ϖ0)] = ks

L’inégalité se réduit donc à k < ks. Pour déterminer ks, il suffit d’utiliser la condition (2) qui s’écrit:

0ks Cnk ϖ0k (1-ϖ0)n-k = 1-α

On notera que la région d’acceptation ne dépend pas de la valeur ϖ1, c’est-à-dire de l’hypothèse H1. Par contre, le risque de deuxième espèce en dépend puisque:

β = 0ks Cnk ϖ1k (1-ϖ1)n-k

Test sur une moyenne

Soit un échantillon de taille n prélevé dans une population normale d’écart-type σ connu, mais de moyenne μ inconnue. Considérons les hypothèses:

La région d’acceptation est définie par:

1/[(2π)n/2σn] e-1/2 i=1n (xi1)²/σ² < λ/[(2π)n/2σn] e-1/2i=1n (xi0)²/σ²

expression que l’on peut écrire aussi:

i=1n (xi0)² - i=1n (xi1)² < 2 σ² log(λ)

soit, en notant m la moyenne empirique m = 1/n i=1n xi et en supposant que μ10:

m < (μ01)/2 + [σ² log(λ)]/[n(μ10)] = ms

Pour définir ms, il suffit d’écrire que:

Prob{Mn>ms | μ=μ0} = α,

où Mn désigne la variable aléatoire moyenne d’un échantillon de taille n. Remarquons que, dans ce deuxième exemple aussi, la région d’acceptation ne dépend pas de l’hypothèse H1.

Cas d'hypothèses composites

En réalité, très souvent, le problème n’est pas de choisir entre deux hypothèses simples H0 et H1, mais entre une hypothèse simple H0 et un ensemble plus ou moins vaste d’hypothèses H1,..., Hi,..., Hn, ou même à un ensemble continu d’hypothèses H.

Dans ce cas, on peut se ramener au problème précédent en comparant successivement H0 à chacune des hypothèses de l’ensemble H. Si, par exemple, on compare H0 à Hi, la méthode exposée plus haut permet de trouver une région wi telle que le risque de première espèce soit égal à α et que le risque de deuxième espèce βi soit minimum. On obtient ainsi un ensemble de régions d’acceptation w1, ..., wi, ..., wn et, dans le cas général, on ne peut pas aller plus loin.

Mais il existe un cas particulier très intéressant, celui où les différentes régions wi ont une partie commune w. Dans ce domaine w, le test utilisé est dit uniformément le plus puissant (en abréviation de l’anglais: UMP). En effet, lorsque X tombe dans w, on est sûr que le risque de première espèce est égal à α et que le risque de deuxième espèce est minimum, quelle que soit l’hypothèse H vérifiée. Les deux exemples précédents constituent une illustration de ce cas, la région d’acceptation étant, comme nous l’avons souligné, indépendante de l’hypothèse H1. Pas tout à fait cependant: notons, en effet, que nous avons supposé, respectivement dans chacun des deux exemples, que ϖ10 et que μ10.

Et nous avons abouti alors à des régions d’acceptation de la forme k<ks et m<ms telles que le risque α soit bloqué à l’une des extrêmités de la distribution de la variable étudiée.

Si donc il s’agit de comparer deux hypothèses de la forme: H0: θ=θ0 et H1: θ>θ0, on est conduit à ce qu’on appelle un test à droite, où le risque de première espèce est bloqué à droite.

Le test d’hypothèses de la forme H0: θ=θ0 et H1: θ < θ0, conduit à un test appelé test à gauche.

Dans le cas, enfin, d’hypothèses de la forme H0: θ=θ0 et H1: θ ≠ θ0, il apparait logique de répartir le risque α aux deux extrêmités de la distribution. Le test est alors un test symétrique.

2 - Tests usuels de comparaison à un standard

Rappel des lois outils usuelles

La détermination des régions d’acceptation nécessite la mise en oeuvre des lois de probabilité caractéristiques des échantillons prélevés dans des populations de référence spécifiées. D’où l’extrême importance d’une connaissance précise des lois de probabilité usuelles définies dans le chapitre précédent, mais que nous allons reprendre ici.

  1. Loi normale réduite

    Etant donnée une variable qui suit une loi normale de moyenne μ et d’écart-type σ, la variable:

    U = (X-μ)/σ

    est distribuée suivant une loi normale réduite (moyenne nulle et écart-type égal à 1).

    Etant donnée la variable Mn = 1/n i=1n Xi, moyenne d’un échantillon de taille n prélevé dans une population normale (μ, σ), elle suit une loi normale de moyenne μ et d'écart-type σ/√n. Il en résulte que la variable: (Mn-μ)/(σ/√n) suit une loi normale réduite.

  2. Loi du χ²

    Etant données ν variables U1, U2,... , Uν indépendantes et suivant des lois normales réduites, la variable:

    χν² = U1² + U2² +...+ Uν²

    suit une loi du χ² à ν degrés de liberté.

    Il en résulte qu’étant donné un échantillon (X1,..., Xi,..., Xn), prélevé dans une population normale (μ, σ), la variable:

    χn² = i=1n [(Xi-μ)²]/σ²

    suit une loi du χ² à n degrés de liberté.

    Appelant S² = 1/n i=1n (Xi- M)² la variance de l’échantillon, la variable:

    χn-1² = 1/σ² i=1n (Xi-M)² = nS²/σ²

    suit une loi du χ² à (n-1) degrés de liberté.

  3. Loi de Student

    Etant données (ν+1) variables normales, réduites, indépendantes, la variable:

    Tν = U / √[1/νi=1ν Ui²]

    suit une loi de Student à ν degrés de liberté.

    Il en résulte qu’étant données M et S² la moyenne et la variance d’un échantillon de taille n prélevé dans une population normale (μ, σ), la variable:

    Tn-1 = (M-μ) / √[1/n (n.(n-1).S²)

    (où n.(n-1).S² est l’estimateur sans biais de σ²) suit une loi de Student à (n-1) degrés de liberté.

Comparaison de la moyenne d’une population normale de variance s² connue à une valeur donnée µ0

Nous allons procéder en 4 étapes.

  1. Faisons l’hypothèse que la moyenne de la population est égale à μ0:

    • H0: μ=μ0, l’hypothèse alternative étant:
    • H1: μ≠ μ0.
  2. Il en résulte que la moyenne M d’un échantillon de taille n suit une loi normale de moyenne μ0 et de variance σ²/n et que, par conséquent, la variable:

    U = (M-μ0)/(σ/√n)

    suit une loi normale réduite.

  3. Fixons nous un risque α que nous conviendrons de considérer comme négligeable.

    Il en résulte un certain intervalle [-uα/2, uα/2] dans lequel la variable U a une probabilité (1-α) de tomber si l’hypothèse est exacte et, par conséquent, hors duquel U a une probabilité α petite de tomber. Négliger cette probabilité α, c’est considerer qu’il est impossible de trouver U en dehors de l’intervalle [-uα/2, uα/2], si l'hypothèse est vraie.

  4. On calcule à partir des données de l'échantillon effectivement obtenu (x1,..., xn) la valeur u de U et on la situe par rapport à l'intervalle [-uα/2, uα/2]. On conclut alors de la façon suivante:

    • si u tombe à l'extérieur de l'intervalle, on préfère rejeter l'hypothèse, en sachant toutefois qu'on assume le risque α de la rejeter à tort.
    • si u tombe à l'intérieur de l'intervalle, cela ne signifie nullement, hélas, que l'hypothèse faite est vraie, mais seulement que les données recueillies ne sont pas en contradiction avec cette hypothèse.

    Autrement dit, on est dans l'incapacité de conclure ni en faveur, ni en défaveur de l'hypothèse. On verra que dans les applications pratiques, cela est généralement moins génant qu'il n'y parait, parce que c'est contre un rejet, fait à tort, de l'hypothèse qu'il faut se prémunir, la conservation de l'hypothèse correspondant au statu quo.

Comparaison de la variance d’une population normale à une valeur donnée s0²

Faisant l’hypothèse:

H0 = σ² = σ0²

la quantité:

χ² = nS²/σ0² = 1/σ0² i=1n (Xi- M)²

suit une loi du χ² à (n-1) degrés de liberté.

Il en résulte que, si l’hypothèse est vraie, nS²/σ0² a la probabilité (1-α) de tomber dans l’intervalle [χ1², χ2²] où χ1² et χ2² sont lus dans la table de la loi du χ² à (n-1) degrés de liberté. Il suffit alors, comme précédement, de calculer la valeur nS²/σ0² à partir des observations, de la placer par rapport à l’intervalle [χ1², χ2²] et enfin de conclure.

Comparaison de la moyenne d’une population normale (de variance inconnue) à une valeur donnée µ0

Faisant l’hypothèse:

H0: μ=μ0

la quantité:

T = (M-μ0) / √(S²/(n-1))

suit une loi de Student à (n-1) degrés de liberté. Le test revient à placer la quantité:

t = (m-μ0)/(σ*/√n) (où σ*² = ns²/(n-1))

par rapport à l’intervalle [-tα/2, tα/2] lu dans la table de Student à (n-1) degrés de liberté.

Tests des appariements

Nous avons présenté, dans l’introduction du chapitre, le dispositif expérimental qui consiste, disposant de n parcelles, à diviser chacune de ces parcelles en deux, et à cultiver chaque parcelle en soumettant l’une des moitiés à un certain traitement et l’autre moitié à un autre traitement. A chaque parcelle correspondront, en fin de culture, deux rendements appariés.

Imaginons un autre exemple, dans lequel on veuille confronter deux appareils de mesure et que, pour ce faire, on utilise n supports en procédant, sur chacun d’eux, à deux mesures à l’aide des deux appareils soumis à examen. Les deux mesures seront dites appariées et les résultats obtenus se présenteront, en définitive, comme suit:

mesures 1: x1, x2,..., xi,..., xn
mesures 2: y1, y2,..., yi,..., yn

Soit di la différence di = (yi - xi) et soient md et σd* la moyenne et l'écart-type estimés des différences. On admet que les di sont des réalisations d’une variable D qui suit une loi normale. Le test de l’hypothèse H0: E(D)=0 (pas d’influence du traitement ou pas de différence entre les appareils de mesures) est le test présenté au paragraphe précédent avec μ0 = 0.

3 - Comparaison sur échantillons de deux populations normales

Comparaison des variances de deux populations normales

La comparaison de deux populations normales revient à se demander si elles ont même moyenne et même variance puisque ces deux paramètres suffisent à déterminer entièrement une distribution normale. Pour des raisons théoriques qui apparaitront dans un paragraphe suivant, la comparaison des variances doit précéder celle des moyennes.

Soient n1 et s1² la taille et la variance de l’échantillon extrait de la première population, et soient n2 et s2² la taille et la variance de l’échantillon extrait de la deuxième population. Nous savons que les estimations sans biais des variances σ1² et σ2² des deux populations s’écrivent:

σ1*² = (n1.s1²)/(n1-1) et σ2*² = (n2.s2²)/n2-1

Dans l’hypothèse d’égalité des variances des deux populations: σ1² = σ2² = σ², ces deux estimations ne diffèrent qu’en raison des aléas de l’échantillonnage. Il en est de même de leur quotient f= σ1*²/σ2*² qui ne diffère de 1 qu’à cause des aléas de l’échantillonnage.

Le statisticien Snedecor, auteur du test classique que nous allons présenter, a retenu cette forme et calculé la loi de probabilité de la variable:

F(ν12) = (χ1²/ν1)/(χ2²/ν2)

où χ1² et χ2² sont deux variables aléatoires indépendantes qui suivent des lois du χ² à ν1 et ν2 degrés de liberté.

Dans l’hypothèse d’égalité des variances des deux populations, si l’on désigne par S1² et S2² les variables, dont les variances des échantillons qui en sont extraits au hasard, sont des réalisations, n1S1²/σ² et n2S2²/σ² sont indépendantes et suivent des lois du χ² à (n1-1) et (n2-1) degrés de liberté. Il en résulte, par définition de cette variable, que le quotient:

F = [n1S1²/n1-1] / [n2S2²/n2-1]

suit une loi de Snedecor à (n1-1) et (n2-1) degrés de liberté. Par conséquent, la quantité:

f= σ1*²/σ2

est une réalisation, si l’hypothèse d’égalité des variances est vérifiée, d’une loi de Snedecor.

Cette loi définie, la suite des opérations est maintenant bien connue. Se fixant un seuil de probabilité α négligeable, on lit dans la table de Snedecor à (n1-1) et (n2-1) degrés de liberté les valeurs f1 et f2 correspondant au dessin ci-dessous.

Telles qu’elles sont présentées, les tables de la loi de Snedecor portent, en tête de colonnes, le nombre de degrés de liberté du numérateur ν1 et, en tête de lignes, celui du dénominateur ν2; elles fournissent, à l’intersection de la colonne ν1 et de la ligne ν2, la limite supérieure f2 de l'intervalle d’acceptation. Elles fournissent donc, à l’intersection de la colonne ν2 et de la ligne ν1, la valeur 1/f1 de l’intervalle d’acceptation.

Estimation de s²

En admettant que le résultat du test précédent ne s’oppose pas à l’hypothèse d’égalité des variances, il peut s’avérer utile d’estimer la valeur commune σ² des variances des deux populations.

Puisque n1S1²/σ² et n2S2²/σ² sont des variables indépendantes qui suivent des lois du χ², respectivement à (n1-1) et (n2-1) degrés de liberté leur somme (n1S1²+n2S2²)/σ² suit une loi du χ² à (n1+n2-2) degrés de liberté, dont la moyenne et la variance sont respectivement (n1+n2-2) et 2(n1+n2-2).

Il en résulte que la variable (n1S1²+n2S2²)/(n1+n2-2) est un estimateur sans biais et convergent de σ², puisque

E[(n1S1²+n2S2²)/(n1+n2-2)] = σ² et
σ²[(n1S1²+n2S2²)/(n1+n2-2)] = 2σ4/(n1+n2-2) → 0.

Par conséquent, la quantité:

σ*² = (n1s1²+n2s2²)/(n1+n2-2)

calculée à partir des observations, est une estimation sans biais de σ².

Comparaison des moyennes de deux populations normales

Dans l’hypothèse de populations normales, une fois testée l’égalité des variances, il suffit de tester l’égalité des moyennes pour pouvoir considérer que les populations sont identiques. Les raisons théoriques qui conduisent à présenter la comparaison des variances avant celle des moyennes peuvent, à ce stade, être explicitées. En effet, le test de comparaison des variances ne faisait aucune hypothèse sur l’égalité des moyennes. Par contre, le test d’égalité des moyennes implique l’égalité des variances. Il est donc nécessaire de vérifier cette égalité avant de s’intéresser aux moyennes.

Cela étant, soient deux populations normales P1 et P2 de moyennes μ1 et μ2, mais de même variance σ². Soient n1 et n2 les tailles de deux échantillons ℰ1 et ℰ2 prélevés au hasard respectivement dans chacune de ces deux populations; soient m1 et m2 leurs moyennes, et soient s1² et s2² leurs variances.

Dans ces conditions, il est permis de considérer que:

Faisons maintenant l’hypothèse que μ12=μ. Il en résulte que la variable (M1 - M2) suit une loi normale de moyenne nulle et de variance égale à la somme des variances de M1 et M2, c’est-à-dire à σ²(1/n1 + 1/n2). Par conséquent, la variable:

U= (M1-M2)/(σ√(1/n1+1/n2))

suit une loi normale réduite.

Pour éliminer la quantité σ inconnue, il suffit de considérer le quotient:

T = =

qui suit une loi de Student à (n1+n2-2) degrés de liberté. Pour simplifier l’écriture, on peut tenir compte de ce que figure, au dénominateur, l’expression de l’estimateur sans biais de σ². Par conséquent t = (m1-m2)/(σ*√(1/n1+1/n2) est une réalisation d’une loi de Student qu’il suffit, pour conclure, de placer par rapport à l’intervalle [-tα/2, tα/2] correspondant au risque α choisi.

Si t n’appartient pas à l’intervalle, on dit souvent que la différence entre les moyennes observées est significative au risque α et, sinon, qu’elle n’est pas significative.

Estimation de la différence des moyennes des populations

Si la différence observée entre les moyennes m1 et m2 des échantillons est significative (d’une différence entre les moyennes μ1 et μ2 des populations), il peut s’avérer utile d’estimer la différence Δ=μ12. La variable (M1-M2) est évidemment un estimateur sans biais de Δ. Quant à la détermination de l’intervalle de confiance, elle repose sur la prise en compte de la variable:

T =

qui suit une loi de Student à (n1+n2-2) degrés de liberté.

On a, par conséquent, au risque α près:

(m1-m2) - tα/2 σ*√(1/n1+1/n2) < Δ < (m1-m2) + tα/2 σ*√(1/n1+1/n2)

Exercices

Vous pouvez entrer la réponse sous forme décimale (1.33), fractionnaire (4/3), ou encore passer une expression numérique: (5.5+2.5)/3/2
Il y a une tolérance sur la réponse de 0.001. Soyez précis, et ne confondez pas probabilité et pourcentage !

Exercice 1

 

On a prélevé, au hasard dans une population normale de moyenne μ et d’écart-type σ, un échantillon de taille n=10. La moyenne et la variance calculées sur cet échantillon sont respectivement m=4 et s²=6.

  1. Calculer une estimation sans biais de σ et son intervalle de confiance au risque 5%.
  2. Tester l’hypothèse σ=2 au risque 5%.
  3. En admettant σ connu égal à 2, tester l’hypothèse μ=3 au risque 5%.
  4. Tester, au risque 5%, l’hypothèse μ = 3 sans faire aucune hypothèse sur la valeur de σ.
  5. Calculer une estimation sans biais de μ et son intervalle de confiance au risque 5% sans faire aucune hypothèse sur la valeur de σ.
  6. En admettant μ connu égal à 3, est-il possible d’envisager un test plus efficace que celui mis en oeuvre en b) pour tester l’hypothèse σ=2 ?

Cet exercice permet de poser les notions du chapitre et de faire le lien avec le chapitre 4.
En particulier, ne pas confondre intervalle de confiance d'une variable (questions a, e, cf. chapitre 4) et test d'hypothèse (questions b, c, cf. ce chapitre).

Exercice 2

 

Pour comparer les rendements de deux variétés de blé A et B, on a ensemencé 10 couples de deux parcelles voisines, l’une en variété A, l’autre en variété B, les 10 couples étant répartis dans des localités différentes. On a obtenu les résultats suivants:

Que peut-on conclure de ces résultats (Au risque alpha=5%)?

Calcul des paramètres
Moyenne échantillon
Variance échantillon
Écart-type empirique

Exercice sur les appariements. On va travailler sur la variable différence entre les 2 récoltes.

Exercice 3

 

On donne ci-après les pourcentages de matière grasse dans un aliment, déterminés sur 10 échantillons par deux méthodes d’analyse différentes A et B.

Comparer ces deux méthodes au risque alpha = 5%.

Calcul des paramètres
Moyenne échantillon
Variance échantillon
Écart-type empirique

Exercice sur les appariements, identique dans son raisonnement au 5.2. On va travailler sur la variable différence entre les 2 résultats.

Exercice 4

 

On a prélevé au hasard un échantillon ℰ1 de taille n1 = 10 dans une population normale P1 de moyenne μ1 et d’écart-type σ1. La moyenne et la variance calculées sur cet échantillon sont respectivement m1 = 4 et s1² = 6.
On préleve au hasard un échantillon ℰ2 de taille n2 = 15 dans une population normale P2 de moyenne μ2 et d’écart-type σ2. La moyenne et la variance calculées sur cet échantillon sont respectivement m2 = 7 et s2² = 20.

  1. Tester l’hypothèse σ2 = σ1, au risque 5%.
  2. Tester l’hypothèse σ2 = 2σ1, au risque 5%.
  3. En admettant que σ2 = 2σ1, calculer une estimation sans biais de σ1, à partir des deux échantillons, et son intervalle de confiance au risque 5%.
  4. Utiliser un test du χ² pour tester simultanément les hypothèses σ² =4 et σ1 =2.
  5. En admettant que σ2 = 2σ1 = 4, tester, au risque 5%, l’hypothèse μ2 = 2μ1.
  6. Calculer une estimation de μ1 à partir des deux échantillons, en admettant que μ2 = 2μ1 et son intervalle de confiance au risque 5%.

a) hypothèse σ2 = σ1, au risque 5%.
Estimation variance 1
Estimation variance 2
Réalisation Snédécor
Paramètre Snédécor

b) hypothèse σ2 = 2σ1, au risque 5%.
Réalisation Snédécor
Paramètre Snédécor

Questions c à f
Voir solution

Comme le 5.1, cet exercice permet de poser les notions du chapitre et de faire le lien avec le chapitre 4. En particulier, ne pas confondre intervalle de confiance d'une variable et test d'hypothèse. Pour un exercice paramétré, voir exercice 5.1.

Exercice 5

 

Il y a des raisons de penser que l'épaisseur de la cire dont sont enduits des sacs en papier est plus irrégulière à l'intérieur qu'à l'extérieur. Pour le vérifier 75 mesures de l'épaisseur ont été faites et ont donné les résultats suivants:

  • surface intérieure: ∑x=71.25 et ∑ x2 =91
  • surface extérieure: ∑y=48.75 et ∑ y2 =84.
  1. Faire un test pour déterminer, au risque 5%, si la variabilité de l'épaisseur de la cire est plus grande à l'intérieur qu'à l'extérieur des sacs.
  2. Revenant à la loi de F, calculer l'intervalle de confiance à 95% du rapport des variances.

a) hypothèse σ2 = σ1, au risque 5%.
Estimation variance x
Estimation variance y
Paramètre Snédécor

b) Voir Solution

Exercice faisant appel à la loi de Snedecor. Dans le b), il faudra se ramener à la loi de F, cf. poly.

Exercice 6

 

Deux chaines de fabrication produisent des transistors. Des relevés effectués pendant 10 jours ont donné les résultats suivants:

  • ligne 1: mx=2800 et ∑ (x-mx)²=103600
  • ligne 2: my=2680 et ∑ (y-my)²=76400

On admettra que les écarts-type σx et σy sont inconnus mais égaux.

  1. Peut-on conclure, au risque de 5%, à une différence entre les productions moyennes des deux lignes ?
  2. Quel est l'intervalle de confiance à 95% de la différence ?

Il s'agit de la comparaison de deux distributions normales à partir de deux échantillons qui en sont issus. Ici, pas besoin de tester d'abord les écarts-types, on calcule la valeur d'un estimateur commun puis on testera l'hypothèse d'égalité des moyennes.