Frédéric Léon -- MATHS -- E. Brontë

Statistiques

Statistiques à 2 variables

Différentes droites de régression

Rappels du cours
  • Droite de Mayer

    Le point moyen a pour coordonnées la moyenne des abscisses (notée $\overline{x}$) et la moyenne des ordonnées (notée $\overline{y}$)

    La droite de Mayer passe les points $G_1$ et $G_2$. Le nuage de points est décomposé en deux nuages de même effectifs (à une unité près) : $G_1$ est le point moyen du premier nuage, $G_2$ est le point moyen du second.

    La droite de Mayer passe le point moyen du nuage initial.

  • Droites de regressions

    La droite de régression par la méthodes des moindres de carrés de $y$ en $x$, est la droite qui minimise la somme des des écarts « verticaux ».

    La droite de régression par la méthodes des moindres de carrés de $x$ en $y$, est la droite qui minimise la somme des des écarts « horizontaux ».

    Le coefficient de détermination ($R^2$) permet de valider le modèle : plus il est proche de 1, meilleure est la corrélation entre les variables.

Exercices

  1. Implant médical

    Le tableau ci-dessous indique le nombre de personnes équipées d'un certain implant médical depuis 2013.

    Année 2013 2014 2015 2016 2017 2018 2019 2020 2021
    Rang de l'année $k_i$ 0 1 2 3 4 5 6 7 8
    Nombre de personnes $N_i$ (en milliers) équipées de l'implant 56,25 58,1 60,5 63 65,8 68,7 72 75,5 79,3
    1. On décide de modéliser cette évolution par une fonction exponentielle et pour cela on effectue le changement de variable $y = \ln(N - 30)$.

      Recopier ce tableau dans un tableur et compléter à l'aide d'une formule qui sera copiée-collée afin d'obtenir les valeurs de $y$.

      Aide

      Il vaut mieux mettre les données en colonnes.

      Si la valeur 56,25 est dans la cellule B2 la formule sera =LN( B2 - 30 ).

    2. Droite de Mayer

      1. À l'aide d'une formule, déterminer les coordonnées du point $G_1$, point moyen des 4 premiers points de ce nuage ; puis tabuler une autre formule permettant d'obtenir les coordonnées du point $G_2$, point moyen des 5 derniers points.
      2. Donner l'expression de la droite de Mayer associée à ce nuage de points.
      3. Aide
        • On peut utiliser la formule =MOYENNE(plage) et utiliser le formatage des cellules pour obtenir les arrondis.
        • L'équation de la droite passant par les points $A(x_A\,; y_A)$ et $B(x_B\,; y_B)$ est donnée par : $y = \ffrac{y_B - y_A}{x_B - x_A} (x - x_A) + y_A$.
      4. En utilisant cette équation de droite, déduire l'expression de la fonction $N$ qui donne le nombre de personnes (en milliers) équipées de l'implant médical, en fonction du rang $k$.
        Aide

        On sait que $y = mx + p$ et $y = \ln(N - 30)$, donc $mx + p = \ln(N -30)$

        Puis utiliser l'exponentielle.

      5. On formule l'hypothèse que le modèle proposé reste valide plusieurs années encore.

        Quel serait le nombre de personnes, au millier près, équipées de l'implant médical en 2026 ?

        Aide

        2013 correspond au rang k = 0 ; donc 2026 correspond au rang ...

    3. Droite des moindres carrés de $y$ en $x$

      1. Déterminer une équation de la droite d'ajustement du nuage de points $M_i\left(k_i,~y_i\right)$ par la méthode des moindres carrés.

        Écrire cette équation sous la forme $y =ak + b$ où $a$ et $b$ sont des coefficients arrondis au centième.

      2. En utilisant cette équation de droite, déduire l'expression de la fonction $N$ qui donne le nombre de personnes (en milliers) équipées de l'implant médical, en fonction du rang $k$.

        Aide

        ici, la droite des moindres carrés donne $y = m k + p$ ; on veut exprimer $N$ en fonction de $k$ sachant que $y = \ln(N - 30)$.

      3. On formule l'hypothèse que le modèle proposé reste valide plusieurs années encore.

        1. Quel serait le nombre de personnes, au millier près, équipées de l'implant médical en 2026 ?
        2. Ce modèle étudié reste-t-il valide sur le long terme ? Justifier la réponse.
          Aide

          l'idée est d'interpréter la limite de $N$ quand $k$ tends vers $+\infty$.

  2. Machines médicales

    Une société veut vendre des machines médicales dont le prix de vente minimal est fixé à $\np{10\,000}$€.

    Le nombre prévisible, $y$, de machines vendues, est fonction du prix proposé, en milliers d'euros, $x$.

    Une enquête auprès de clients potentiels a donné les résultats suivants:

    $x_i$ : Prix proposé pour une machine (en milliers d'euros) 10 12,5 15 17,5 20 25
    $y_i$ : Nombre prévisible de machines vendues au prix proposé 100 85 62 42 28 11
      1. Recopier le tableau dans une feuille de tableur.
      2. On pose $z_i=\ln\left( \ffrac{y_i}{x_i-6} \right)$. Compléter la feuille afin d'obtenir les valeurs de $z_i$ arrondies au millième le plus proche.
        Aide

        Quand on écrit une formule en ligne : ne pas oublier les parenthèses !

      3. Donner une équation de la droite de régression de $z$ en $x$; les coefficients seront arrondis au millième le plus proche.
      4. En déduire une expression approchée de $y$ de la forme $y=\alpha (x-6) \text{e}^{\beta x}$ (arrondir $\alpha$ à l'unité et $\beta$ au centième).
        Aide

        ici, la droite de régression est de la forme : $z = mx + p$ ; on veut exprimer $y$ en fonction de $x$/

    1. On admet que le chiffre d'affaire est donné par la fonction $C(x) = x \times y$ pour $x \geqslant 10$.

      1. À l'aide d'un logiciel de calcul formel déterminer une expression factorisée de la dérivée de $f$.

        Aide

        GeoGebra propose une fenêtre calcul formel.

        Ne pas oublier d'écrire tous les signes d'opération.

      2. Rappel : si la dérivée s'annule en changeant de signe, alors la fonction atteint un extremum.

        Déterminer la valeur de $x$ permettant d'obtenir le chiffre d'affaire maximal et donner sa valeur.

  3. Étude cardio vasculaire

    Pour une étude cardio-vasculaire, on effectue une perfusion lente à débit constant d'une solution marquée par un indicateur radioactif.

    On relève l'évolution de la concentration au niveau du ventricule droit et on obtient les résultats suivants :

    $i$ 1 2 3 4 5 6 7
    $t_i$ : temps en minutes 0 2 4 6 8 10 12
    $c_i$ : concentration en microgrammes par cm3 0 54 84 100 109 114 117

    Les résultats seront arrondis au centième le plus proche (pour le tableur, utiliser le formatage des cellules).

    1. Recopier le tableau dans un tableur.
    2. On pose $z_i = \ln \left(120 - c_i\right)$.

      Compléter le tableau à l'aide d'une formule qui sera copiée-collée. afin d'obtenir les valeurs de $z_i$ pour $i$ variant de $1$ à $7$.

    3. Représenter le nuage de points $M_i(t_i\,; z_i)$ associé à ce tableau.
    4. Déterminer par les méthodes des moindres carrés une équation de la droite de régression de $z$ en $t$.
    5. Donner une expression de la concentration $c$ en fonction de $t$ déduite de cet ajustement sous la forme $c(t) = A + B\e^{\alpha t}$.

      Aide

      quelques soient les réels $a$ et $b$ : $\e^{a + b} = \e^a \times \e^b$

    6. À l'aide de ce modèle, déterminer la concentration de l'indicateur au bout de $25$ mn.
  4. Température du café

    On se propose d’étudier le refroidissement du café. On dispose d’une tasse de café à $100^o$ que l'on place dans une salle où règne une température constante de $20^o$.

    On réalise l’expérience en mesurant la température du café, notée $\theta$, contenu dans la tasse à différents instants $t$. Les résultats sont notés dans le tableau suivant :

    Temps en minutes : $t$ 0 1 2 5 12 15 20 35 60
    Température en \textcelsius : $\theta$ 100 90 85 70 50 42 35 27 20
    1. Recopier ce tableau dans un tableur et présenter le nuage de points $M(t\,; \theta)$.
    2. Justifier la pertinence (ou non) d'un ajustement affine.
      1. On pose $z=\ln \theta$. Compléter la feuille de tableur à l'aide d'une formule qui sera copiée-collée.

        En utilisant le formatage des cellules; afficher les résultats au millième.

      2. Déterminer une équation de la droite d’ajustement de $z$ en $t$. Arrondir les coefficients à $10^{-3}$.
      3. En utilisant ce modèle, déterminer la température du café dans la tasse au bout de $10$ minutes.
      4. Ce modèle est-il pertinent pour estimer la température du café au bout de $2$ heures ?

        Aide

        Ce type de question attend une réponse basée sur le bon sens !

    3. Une autre modélisation mathématique permet de déterminer la fonction $T$ définie sur $\intfo0{+\infty}$ qui donne donne la température du café en degré en fonction du temps : $T(t) = 20 + 80 \e^{-\np{0,1}t}$.

      1. Compléter le tableau à l'aide d'une formule qui sera copiée-collée afin d'obtenir les valeur de $ T(t)$.
      2. Afficher dans un même graphique le nuage de points $M_i$ le nuage de points $P(t, T(t))$.

        Justifier que ce modèle semble pertinent.

      3. En utilisant ce modèle, déterminer la température de la tasse de café au bout de $10$ minutes.
      4. Ce modèle est-il pertinent pour estimer la température du café au bout de $2$ heures ?
  5. Solution tampon

    Dans une solution tampon (solution dont le pH varie peu ou ne varie pas lors de l’ajout d’un acide ou d’une base, ou lors d’une dilution), on introduit des levures (saccharomyces cerevisiae) en suspension.

    On ajoute ensuite une solution de glucose à $5$ millimoles par litre (mmol.L$^{-1}$), et on suit la fermentation de glucose par les levures en relevant la quantité d’éthanol obtenue au cours du temps.

    Le tableau ci-dessous donne la quantité $y_i$ (exprimée en unité arbitraire, ua) d’éthanol dans la solution, en fonction de $x_i$ qui représente la durée écoulée, en seconde, depuis l’ajout de glucose.

    À chaque valeur de $y_i$ , on associe $z_i =\ffrac{\np{5,2}}{\np{5,2}-yi}$.

    Durée $x_i$ (en s) 0 250 500 700 1000 1500 2000 2500
    Quantité $y_i$ (en ua) 0,3 1,4 2,2 2,8 3,2 3,7 3,9 4,1
    1. Copier le tableau dans un tableur. Le compléter en calculant les valeurs $z_i$ à l'aide d'une formule qui sera copiée-collée.

      Formater les cellules avec un affichage à $4$ décimales.

    2. Déterminer une équation de la droite d'ajustement de $z$ en $x$ (arrondir les coefficients à $10^{-4}$.)
    3. En utilisant ce modèle, exprimer $y$ en fonction de $x$, puis en déduire une estimation de la quantité d'éthanol présente quarante minutes après l'introduction du glucose.

Statistiques à 1 variables

  1. tableur

    feuille tableur
  2. Les bases : Déclic 2nde, p 324 n°69

    lecture graphique
  3. Les bases : Déclic 2nde, p 319 n°43

    lecture graphique / moyenne / écart-type
  4. Les bases : Déclic 2nde, p 324 n°74

    comparer des séries / diagrammes en boite
  5. Contrôle de qualité dans une minoterie

    Une minoterie (établissement qui fabrique des farines de céréales) reçoit chaque jour des camions de blé. Ce blé est destiné à être transformé en farine. La farine fabriquée est ensuite vendue à des boulangers industriels ou à des artisans boulangers.

    Dans la minoterie, on procède à deux contrôles qualité à l’arrivée d’une livraison de blé : l’un sur l’extensibilité d’une pâte obtenue à partir de la farine fabriquée avec un échantillon du blé livré, l’autre sur le taux d’humidité du blé livré.

    1. Un technicien broie une quantité de blé représentatif d’une livraison. Il obtient une farine, avec laquelle il fabrique cinq échantillons de quantité identique de pâte. Il mesure l’indice d’extensibilité, en mm, de chacun de ces échantillons.

      Voici les résultats obtenus :

      Indice d’extensibilité en mm
      échantillon n° 1 104
      échantillon n° 2 81
      échantillon n° 3 83
      échantillon n° 4 57
      échantillon n° 5 55
      1. Donner la moyenne $\bar{x}$ de cette série et son écart-type arrondi au centième.
      2. Dans cette question, on considère que l’écart-type de la série est $\sigma = 18$ mm.

        Le processus qualité impose de procéder à un test sur cinq nouveaux échantillons de pâte si l’une des cinq valeurs de la série précédente est en dehors de l’intervalle $\intff{\bar{x} - 2\sigma}{\bar{x} + 2\sigma}$.

        Vérifier que le technicien n’a pas besoin de procéder à un test sur cinq nouveaux échantillons de pâte.

    2. Deux camions, en provenance d’une même exploitation agricole, sont arrivés. Le technicien utilise un humidimètre qui indique le taux d’humidité, mesuré en pourcentage, du blé livré dans chaque camion :

      • le premier contient $\np{29 540}$ kg de blé présentant un taux d’humidité global de $12,4\,\%$;
      • le second contient $\np{14 540}$ kg de blé présentant un taux d’humidité global de $14,1\,\%$.

      Le cahier des charges exige un taux d’humidité inférieur à $13\,\%$ dans un même silo. Lors du déchargement des deux camions dans un même silo, les blés seront mélangés.

      Montrer que le technicien peut autoriser le déchargement des deux camions dans un même silo vide.