Glossaire

Médiane:

La médiane d'une variable est, dans un échantillon donné, la valeur du "milieu". 50% des observations ont donc une valeur supérieure, et 50 autres % une valeur inférieure.

Régression:

La régression est une méthode statistique utilisée pour déterminer la direction et la force d'une relation entre une variable dépendante et un ensemble de variables explicatives. La forme générale d'une régression linéaire multiple est:

Y = a + b1X1 + b2X2 + b3X3 + ... + btXt + u

Où:

  • Y est la variable dépendante, que le modèle essaie d'expliquer
  • X1, X2, X3, ... sont les variables utilisées pour expliquer Y (variables explicatives ou indépendantes)
  • a l'ordonnée à l'origine
  • b1, b2, b3, ... sont les paramètres de pente
  • u est le résidu de la régression

Un modèle de régression peut comprendre des variables mesurées sur différentes échelles (nominale, ordinale, discrète, continue).

Les valeurs des paramètres de pente et de l'ordonnée à l'origine sont alors estimées à partir d'un jeu de données contenant des valeurs pour la variable dépendante et les variables explicatives, et pour un échantillon d'observations.

Régression logistique:

Les modèles de régression logistique sont utilisés lorsque la variable dépendante d'une analyse multivariée est binaire (ses valeurs sont soit 0 soit 1). La régression logistique est utile pour analyser la probabilité d'un certain événement (par exemple, la probabilité qu'un enfant arrête d'exécuter des tâches dangereuses après avoir reçu un appui) à partir d'une ou plusieurs variables explicatives. Dans une régression logistique, l'équation qui modèle la relation entre la variable dépendante et les variables explicatives est non-linéaire, tenant compte du fait que la valeur possible d'un côté ou de l'autre de l'équation est soit zéro soit un. Les variables explicatives, dans un modèle de régression logistique, peuvent avoir été mesurées sur n'importe quelle échelle.

Multicolinéarité:

Dans une analyse par régression, la multicolinéarité se produit lorsque le jeu de données contient des variables explicatives hautement corrélées les unes aux autres. Dans la mesure où l'analyse par régression repose sur l'idée que la valeur d'une variable explicative peut être changée tout en gardant fixe la valeur de toutes les autres variables explicatives, il devient difficile d'estimer indépendamment la relation entre chaque variable explicative et la variable dépendante lorsqu'un changement dans une variable explicative entraîne un changement dans une autre. De fortes corrélations entre variables explicatives peuvent donc poser problème lors de l'ajustement du modèle et de l'interprétation des résultats.