Orientation à l’unité 3

Dans cette troisième unité de l’atelier, vous êtes appelé à distinguer les variables et les principaux types de statistiques retrouvés dans les articles, en plus d’interpréter des résultats.

Pourquoi ai-je besoin de comprendre les stats?

Objectif spécifique

  • Interpréter des résultats statistiques à partir des principaux concepts

Êtes-vous à l’aise avec les stats?

Comment vous sentez-vous lorsque vous lisez la section des résultats d’un article scientifique dans lequel on parle de corrélation, d’écarts-types, de risque relatif, d’intervalle de confiance à 95 % ou encore, de résultats significatifs avec un p < 0,001?

Évaluer votre niveau de confort dans ce domaine :





Cette unité vous permettra de mieux comprendre les résultats statistiques en maîtrisant quelques concepts généraux et vous outillera pour développer votre sens critique à la lecture des articles que vous serez appelés à consulter.

Par où commencer?

Peu importe comment les résultats sont présentés, afin d’en comprendre le sens, quelques termes clés doivent d’abord être bien compris.

Plongeons lentement dans le sujet en expliquant les termes les plus pertinents.

decorative

Qu’est-ce qu’une variable?

En recherche quantitative, une variable est une mesure qui peut prendre plusieurs valeurs et qui souvent, possède une unité de mesure.

Êtes-vous en mesure d’en nommer quelques-unes?

La première étape pour bien comprendre les statistiques consiste à bien distinguer les niveaux de mesure des variables. Il existe principalement trois niveaux de mesure des variables :


info_outline Consigne : cliquez sur le symbole de la loupe pour en savoir davantage sur les niveaux de mesure.

Nominal

Variable qui contient deux catégories ou plus et est définie grâce à des nombres souvent arbitraires, soit des nombres qui permettent de classer les catégories d’une variable.

Seules les fréquences ou les proportions (en %) peuvent être utilisées pour rapporter les résultats issus d’une variable nominale.

Ordinal

Variable qui contient trois catégories ou plus et est définie grâce à des nombres parfois arbitraires, mais qui donnent un certain ordre de grandeur.

Les fréquences et les proportions (en %) sont souvent utilisées pour rapporter les résultats issus d’une variable ordinale.

Cardinal

Variable qui est définie grâce à des nombres peu arbitraires qui offrent le plus grand nombre de possibilités d’analyse.

La moyenne est la statistique la plus souvent rapportée lorsque l’on traite une variable cardinale.

À noter : Les variables de niveau cardinal sont parfois appelées variables métriques. Vous verrez aussi parfois variables d’intervalles et variables de rapport.

Ce que disent les variables

info_outline Consigne : cliquez sur chaque boîte de dialogue pour obtenir une définition plus complète des concepts.


Maintenant que vous connaissez mieux les variables et leurs niveaux de mesures, essayons de mieux comprendre ce qu’elles tentent de nous dire à l’intérieur des résultats d’une étude.

Essentiellement, les résultats découlant des variables nous permettent de mieux comprendre le phénomène étudié en présentant au moins l’un de ces trois éléments :

decorative

Voyons en détail ces trois concepts.

En quoi consistent les statistiques descriptives?

Description

Les études cherchent à décrire, de la façon la plus simple possible, l’ensemble des données qui composent une variable.

Très peu d’études quantitatives cherchent uniquement à décrire un phénomène. Mais presque toutes les études quantitatives contiennent des éléments descriptifs pour mieux contextualiser l’étude.

Une femme regarde l’ensemble des données affichées

Fréquence

Fréquence (Frequency) : Nombre d’occurrences d’un événement dans une période déterminée.

Plus précisément, une statistique comme la fréquence nous aide à situer l’importance qu’occupent les catégories d’une variable nominale ou ordinale.

Animation 1 : Exemple de la fréquence

Transcription

Mesure de tendance centrale / Moyenne

Une mesure de tendance centrale comme la moyenne permet de résumer en un seul point l’ensemble des données d’une variable cardinale.

Mesure de tendance centrale (Measure of central tendency) : Valeur numérique déterminée comme représentative de la valeur qui est au centre d’une série statistique. Les mesures de tendance centrale les plus connues sont le mode, la médiane et la moyenne.

Moyenne (Mean) : Mesure de tendance centrale calculée en divisant la somme de toutes les valeurs observées par le nombre d’observations.

Animation 2 : Exemple de la moyenne

Transcription

Mesure de dispersion / Écart-type

La moyenne est souvent accompagnée d’une mesure de dispersion comme l’écart-type pour nous indiquer où se situe l’ensemble des données autour de cette moyenne.

Mesure de dispersion (Measure of dispersion) : Pour une série d’observations statistiques, indication ou indice établi pour exprimer leur éloignement les unes des autres.

Écart-type (Standard deviation) : Mesure de dispersion qui indique où se trouvent la plupart des individus de l’échantillon autour de la moyenne. On sait qu’environ 68 % des individus d’un échantillon se retrouvent à l’intérieur de ± 1 écart-type.

Animation 3 : Exemple de l’écart-type

Transcription

info Pour en savoir plus sur l’écart-type et la courbe normale

Courbe normale (Normal curve) : Courbe utilisée pour représenter graphiquement des données d’une série statistique de distribution normale, c’est-à-dire dont la grandeur ou le comportement ne dépend que du hasard.

Visionnez cette capsule vidéo si vous souhaitez en savoir plus sur l’écart-type et la courbe normale.

Animation 4 : Courbe normale

Transcription

assignment Activité : Reconnaître les statistiques descriptives dans un article scientifique

Allons voir si vous pouvez reconnaître ces statistiques descriptives retrouvées dans un article scientifique.


Mise en contexte :

Montoro, Thombs et Igartua (2015) ont cherché à définir les liens entre l’orientation sexuelle, le harcèlement et l’idée suicidaire chez les jeunes de 14 à 18 ans du Québec. Voici quelques éléments descriptifs de l’échantillon.

Extrait provenant de la section «  Caractéristiques de l’échantillon  »

«  Tel qu’il est indiqué dans le tableau 1 911 élèves (49 %) étaient âgés de 16 ans ou plus, 913 (49 %) étaient de sexe féminin et 1 195 (65 %) étaient de race blanche.  »

Adolescents assis sur un banc et travaillant avec des ordinateurs

1a) Tentez de discerner les variables.


assignment Activité : Reconnaître le niveau de mesure des variables dans un tableau

Les statistiques descriptives sont souvent présentées dans un tableau. Allons décortiquer un exemple de plus près.


Mise en contexte :

Bonanséa, Monthuy-Blanc, Aimé, Therme et Maïano (2016) ont voulu comparer les attitudes et les comportements alimentaires inappropriés ainsi que les caractéristiques psychosociales en fonction de deux niveaux de pratique sportive, soit intensive et de loisir. Avant de comparer les attitudes et les comportements alimentaires inappropriés selon la pratique sportive, les auteurs ont apporté quelques précisions sur les groupes à l’étude avec quelques statistiques descriptives. Cette portion du tableau cherche donc à décrire quelques paramètres anthropométriques et sportifs pour les deux pratiques sportives, soit de niveau intensif ou de loisir.

Une femme qui pratique le taekwondo donne un coup de pied

Tableau 1

Données anthropométriques et données liées à la pratique sportive

Données anthropométriques / sportives

Intensif (n = 88)

Loisir (n = 58)

Total (n = 146)

 

M ± ET

M ± ET

M ± ET

Âge (années)

17,06 ± 1,26

16,33 ± 1,72

16,77± 1,50

IMC (kg/m2)

22,23 ± 4,19

19,75 ± 2,01

21,24 ± 3,69

Catégorie de poids

N

%

N

%

N

%

Insuffisance pondérale

12

13,64 %

13

22,41 %

25

17,12 %

Poids normal

55

62,50 %

44

75,86 %

99

67,81 %

Surpoids

17

19,32 %

1

1,72 %

18

12,33 %

Obésité

4

4,55 %

0

-

4

2,74 %

Types de pratiques sportives

Judo

50

56,82 %

18

31,03 %

68

46,58 %

Taekwondo

11

12,05 %

13

22,41 %

24

16,44 %

Gymnastique

6

6,82 %

7

12,07 %

13

8,90 %

Nage synchronisée

5

5,68 %

6

10,35 %

11

7,53 %

Athlétisme

16

1,82 %

14

24,14 %

30

20,55 %

Tentez de discerner :

  • Les quatre variables à l’intérieur de la colonne «  Données anthropométriques/sportives  »
  • Le niveau de mesure de chacune de ces quatre variables

info_outline Consignes :

  1. Tapez vos réponses dans les boîtes appropriées.
  2. Appuyez sur « Comparez vos réponses avec les nôtres » pour les corriger.
Les quatre variables à l’intérieur de la colonne « Données anthropométriques/sportives  » Le niveau de mesure de ces quatre variables

Est-ce qu’il existe une relation entre les variables?

Maintenant que vous êtes plus familier avec les statistiques descriptives, allons voir comment les relations entre les variables sont communiquées dans les écrits scientifiques.

Relation

À l’exception des études descriptives, presque toutes les études cherchent à mettre en relation deux ou plusieurs variables.

Les statistiques qui résument une relation entre deux ou plusieurs variables nous permettent en fait de définir le lien qui unit ou non ces variables.

Variable dépendante et variable indépendante

Plus précisément, une variable dépendante est mise en relation la plupart du temps avec une ou plusieurs variables indépendantes.

Variable dépendante (Dependent variable) : La variable dépendante (VD) est liée à l’objet de recherche. C’est la variable passive, encore appelée variable réponse, parce qu’elle indique le phénomène que le chercheur essaie d’expliquer.

Variable indépendante ou expérimentale (Independent ou Experimental variable) : Variable souvent manipulée par le chercheur pour observer ou mesurer ses effets sur la variable dépendante.


Exemple
Variables indépendante et dépendante
Variables indépendante et dépendante

Pour mieux illustrer ceci, prenons en exemple une population avec plusieurs facteurs de risque de développer un diabète de type II. Une équipe de recherche cherche à savoir si une nouvelle intervention permet de minimiser les cas de diabètes au sein de cette population.

Par exemple, ce modèle a été créé pour répondre à la question suivante :


help Cette nouvelle intervention permet-elle de réduire les cas de diabète de type II comparativement au groupe contrôle chez les individus avec plusieurs facteurs de risque?

Pourriez-vous repérer les variables indépendante et dépendante?

Variable indépendante :

Variable dépendante :

Statistiques utilisées pour définir un lien entre deux variables

Une fois que nous avons repéré les variables indépendante et dépendante, différents types de statistiques sont utilisés pour définir l’existence de lien ou non entre ces variables.

Les statistiques utilisées pour définir une relation entre deux variables dépendent du niveau de mesure des variables, soit nominal, ordinal ou cardinal.


Exemple
Variables indépendante et dépendante
Variables indépendante et dépendante

Si on reprend l’exemple précédent, pouvez-vous déceler :


  • Le niveau de mesure de la variable indépendante «  intervention  »?
  • Le niveau de mesure de la variable dépendante «  diabète  »?

Statistiques de relation

Quelques exemples de statistiques de relation que nous approfondirons sont :

  • les rapports de cotes (ou Odds ratio en anglais);
  • les risques relatifs;
  • les corrélations;
  • la comparaison des moyennes.

Rapport de cotes et risque relatif

Les rapports de cotes ou les risques relatifs permettent de décrire une relation entre deux variables nominales.

Rapport de cotes (Odds Ratio) : Mesure du lien entre l’exposition à un facteur de risque et l’apparition d’une atteinte. Plus précisément, il s’agit du rapport (quotient) entre la cote d’exposition chez les cas (sujets malades ou décédés, par exemple) et chez les témoins (sujets non malades ou vivants, par exemple).

Risque relatif (Relative risk) : Mesure du lien entre l’exposition à un facteur de risque et l’apparition d’une atteinte. Plus précisément, il s’agit du rapport (quotient) entre le risque de survenue d’un événement chez les sujets exposés à un facteur donné et le risque de survenue de cet événement chez les sujets non exposés à ce facteur.


Exemple

Dans l’exemple reliant l’intervention au diabète, le rapport de cote ou le risque relatif serait donc la statistique de relation appropriée.

Voici un exemple de résultat qui utilise un indice de risque relatif pour définir une relation.

Risque relatif
Risque relatif

Contexte :
On cherche à savoir si une nouvelle intervention permet de prévenir les cas de diabète chez une population présentant plusieurs facteurs de risque. Un rappel que la variable intervention et la variable diabète sont toutes deux de niveau nominal.

Résultat fictif :
Selon les résultats illustrés dans cet exemple, les individus faisant partie du groupe contrôle ont un risque relatif 2,5 fois plus élevé d’être diabétiques que ceux faisant partie du groupe intervention.

Interprétation :
Ce résultat suggère qu’il existe un lien entre les variables intervention et diabète. En d’autres mots, les cas de diabète diffèrent selon l’appartenance au groupe contrôle ou intervention. De façon plus concrète, la nouvelle intervention semble atténuer la présence de nouveau cas de diabète.

Corrélation

Les corrélations de Pearson permettent de décrire une relation entre deux variables cardinales.


Exemple

Voici un exemple de résultat qui utilise un coefficient de corrélation pour définir une relation.

Corrélation
Corrélation

Contexte :
Des cliniciens veulent savoir si l’indice de masse corporelle (en kg/m2) et la glycémie à jeun (mMol/L) sont reliés chez une population adulte et sédentaire. Pour ce faire, on obtient des résultats pour dix participants. Un rappel que l’indice de masse corporelle et la glycémie à jeun sont deux variables de niveau cardinal.

Résultat fictif :
Selon les résultats illustrés dans cet exemple, le niveau de glycémie à jeun est modérément corrélé en fonction de l’indice de masse corporelle chez les individus avec un surplus de poids (r = 0,484).

Interprétation :
Ce résultat suggère qu’il existe un lien entre les variables indice de masse corporelle et glycémie à jeun. En d’autres mots, plus l’indice de masse corporelle est élevé, plus la glycémie à jeun est élevée également.

Comparaison entre les moyennes

Les comparaisons des moyennes permettent de décrire une relation entre une variable cardinale et une variable nominale contenant de deux à cinq groupes.


Exemple

Voici un exemple de résultat qui utilise la comparaison entre les moyennes pour définir une relation.

Comparaison entre les moyennes
Comparaison entre les moyennes

Contexte :
On cherche à savoir si une nouvelle intervention permet de diminuer la glycémie à jeun (en mMol/L) chez des individus atteints de diabète de type II. Pour ce faire, on compare les résultats du groupe intervention à celui du groupe contrôle. Un rappel que la glycémie est une variable cardinale alors que l’intervention est une variable nominale.

Résultat fictif :
Selon les résultats illustrés dans cet exemple, le niveau de glycémie à jeun est légèrement plus élevé pour le groupe contrôle (6,7 ± 1,2 mMol/L) comparativement au groupe intervention (6,0 ± 0,9 mMol/L).

Interprétation :
Puisque les moyennes diffèrent entre les deux groupes, ces résultats suggèrent qu’il existe un lien entre les variables intervention et glycémie à jeun. En fait, la glycémie moyenne du groupe intervention est un peu plus basse que celle du groupe contrôle. Toutefois, l’ajout de statistique déductive s’avèrera nécessaire pour conclure si cette différence est réelle. Nous reviendrons plus en détail sur cet élément plus loin dans l’unité.

Nous nous pencherons sur ces différentes statistiques de relation dans la prochaine partie.

Pouvez-vous reconnaître les types de relations?

Après les prochaines sections, vous serez en mesure de mieux reconnaître :

  • Les rapports de cotes ou les risques relatifs
  • Les corrélations
  • Les comparaisons entre les moyennes

Les rapports de cotes ou les risques relatifs

Les rapports de cotes (RC) ou les risques relatifs (RR) sont souvent utilisés lorsque l’on veut connaître le lien entre une intervention et un diagnostic.

Ce type de statistique permet de décrire une relation entre deux variables nominales dichotomiques.

Une variable nominale dichotomique contient deux catégories.
Une variable nominale dichotomique contient deux  catégories

La plupart du temps, les RC ou les RR sont construits à partir d’un tableau de contingence qui a ce format :


un tableau de contingence

info_outline Consigne : cliquez sur le symbole pour afficher les variables.



Les RC ou les RR permettent d’illustrer à quel point le groupe exposé au risque est atteint de la maladie en comparaison au groupe qui est non exposé au risque.

À titre d’exemple, une analyse pourrait conclure que les probabilités d’être atteint d’un cancer sont 3,6 fois plus élevées chez les fumeurs que chez les non-fumeurs. On indiquerait donc un rapport de cotes comme ceci : RC = 3,59. (Même si RC = 3,59, soit une valeur avec deux décimales, on utilise la valeur arrondie 3,6.)


   

RC = 3,59

Tabagisme

Cancer

 

Atteint d’un cancer

Pas atteint d’un cancer

Fumeurs

63 (a)

42 (b)

Non-fumeurs

28 (c)

67 (d)

Faits à noter :

Selon la configuration du tableau de contingence ci-haut :

Un RC ou un RR > 1 indique que le fait d’être exposé au risque augmente les « chances » d’être atteint de la maladie ou de la conséquence indésirable.

Un RC ou un RR  = 1 indique qu’il n’y a aucune relation entre le facteur de risque et la maladie ou la conséquence indésirable.

Un RC ou un RR < 1 indique, de façon paradoxale, que le fait d’être exposé au risque diminue les «  chances  » d’être atteint de la maladie ou de la conséquence indésirable.

assignment Activité : Décortiquer les rapports de cotes dans un article scientifique

Tentons de décortiquer les rapports de cotes retrouvés dans un article scientifique.

Mise en contexte :

Montoro et ses collaborateurs (2015) ont cherché à définir les liens entre l’orientation sexuelle, le harcèlement et l’idée suicidaire chez les jeunes de 14 à 18 ans du Québec.

Notes :

  • RC = Rapport de cote (ou Odds Ratio en anglais)
  • IC = Intervalle de confiance. Cette notion sera vue plus en détail dans la section sur la déduction
Un étudiant triste dans le couloir de l'école
Extrait provenant de la section Idée suicidaire, planification et tentative de suicide :

«  …les élèves s’identifiant comme hétérosexuels sans attirance ou comportement envers le même sexe étaient presque trois fois plus susceptibles de mentionner des idées suicidaires lorsqu’ils étaient victimes de harcèlement, que le même groupe sans harcèlement (RC = 2,76, IC 95 % = 2,06 à 3,69, p < ,001). Les élèves non hétérosexuels ne subissant aucun harcèlement étaient presque quatre fois plus susceptibles (RC = 3,97, IC 95 % = 2,26 à 6,97, p < ,001); et les élèves non-hétérosexuels ayant mentionné du harcèlement étaient plus de huit fois plus susceptibles (RC = 8,13, IC 95 % = 4,68 à 14,15, p < ,001).  »


Extrait tiré de l’article de Montoro et al., 2015.

Les trois rapports de cotes (RC) décrivent trois relations. Pour les trois cas, la conséquence indésirable est l’idée suicidaire. Pour les trois cas également, le groupe «  hétérosexuel non victime de harcèlement  » est le groupe de référence, soit le groupe non exposé au risque.

Sachant cela, saurez-vous indiquer les groupes exposés au risque pour chaque rapport de cotes (RC)?

info_outline Consignes :

  1. Cliquez sur « Choisissez » pour afficher les facteurs de risque.
  2. Sélectionnez le facteur approprié.
  3. Appuyez sur « Vérifiez vos réponses » pour les corriger.
 

RC = 2,76

 

Facteur de risque

Idée suicidaire

 

Oui

Non


Hétérosexuel non victime de harcèlement

98

135

289

1098


 

RC = 3,97

 

Facteur de risque

Idée suicidaire

 

Oui

Non


Hétérosexuel non victime de harcèlement

20

135

41

1098


 

RC = 8,13

 

Facteur de risque

Idée suicidaire

 

Oui

Non


Hétérosexuel non victime de harcèlement

28

135

28

1098

info Pour en savoir plus sur le rapport de cotes et le risque relatif

Revenons avec l’exemple où les résultats stipulaient que les probabilités d’être atteint d’un cancer sont 3,6 fois plus élevées chez les fumeurs que chez les non-fumeurs (RC = 3,59).

Voici un exemple de tableau de contingence qui aurait permis d’arriver à ce constat.

Sous le tableau, vous avez les équations mathématiques qui expliquent comment les RC ou le RR sont calculés. (Celles-ci ne sont jamais indiquées dans un article. Nous vous les illustrons pour vous expliquer le processus.)


Tableau fictif illustrant les cas de cancer en fonction du tabagisme pour un échantillon quelconque

Tabagisme

Cancer

 

Atteint d’un cancer

Pas atteint d’un cancer

Fumeurs

n=63 (a)

n=42 (b)

Non-fumeurs

n=28 (c)

n=67 (d)

Pour calculer le rapport de cote (RC) :

RC = (a  / b)( c  / d)

RC = ( 63  / 42)( 28  / 67)

RC = 3,59


Interprétation :

Les probabilités d’être atteint d’un cancer sont 3,6 fois plus élevées chez les fumeurs que chez les non-fumeurs (RC = 3,59).

Pour calculer le risque relatif (RR) :

RC = a / (a + b)c / (c + d)

RC = 63 / (63 + 42)28 / (28 + 67)

RC = 2,04


Interprétation :

Le risque relatif d’être atteint d’un cancer est 2 fois plus élevé chez les fumeurs que chez les non-fumeurs (RR = 2,04).

Vous vous questionnez sur ce qui distingue le rapport de cotes du risque relatif? Consultez ce document .

Les corrélations

Les corrélations de Pearson permettent de décrire une relation entre deux variables cardinales.

Les corrélations de Pearson peuvent être présentées de deux façons :

  • par un nuage de points
  • par un coefficient de corrélation

Le coefficient de corrélation (r) a la particularité de varier entre -1 et +1.

Nuage de points formant une diagonale parfaite du coin supérieur gauche au coin inférieur droit.

Une valeur de -1 illustre une relation négative parfaite.

  • C’est-à-dire qu’une valeur basse pour une variable correspond parfaitement à une valeur élevée pour l’autre variable et vice versa.
Nuage de points formant une diagonale parfaite du coin inférieur gauche au coin supérieur droit.

Une valeur de +1 illustre une relation positive parfaite.

  • C’est-à-dire qu’une valeur basse pour une variable est parfaitement associée à une valeur basse pour l’autre variable.
  • Dans la même veine, une valeur élevée pour une variable est parfaitement associée à une valeur élevée pour l’autre variable.
Nuage de points éparpillé dans tous les sens.

Une valeur de 0 illustre une absence de relation entre les deux variables.

  • C’est-à-dire qu’une variable ne peut aucunement prédire l’autre variable.
  • Aucune tendance n’est observable.

L’activité qui suit vous permettra d’attribuer le bon coefficient de corrélation de Pearson au bon nuage de points.

assignment Activité : Associer les coefficients de corrélation aux nuages de points

Allons voir si vous saurez associer le bon coefficient de corrélation au bon nuage de points.

info_outline Consignes :

  1. Examinez les nuages de points suivants.
  2. Associez le bon coefficient de corrélation au bon diagramme de dispersion.
Nuage de points formant une diagonale parfaite du coin supérieur gauche au coin inférieur droit.
Nuage de points formant une diagonale plutôt faible allant du coin supérieur gauche au coin inférieur droit.
Nuage de points formant une diagonale très forte allant du coin inférieur gauche au coin supérieur droit.
Nuage de points éparpillé dans tous les sens.

Les corrélations : quelques indicateurs

Voici quelques indicateurs permettant d’interpréter des coefficients de corrélations.

Un coefficient où :

Décrit une relation négative parfaite et le nuage de points ressemble à :

R = -1,00

Nuage de points formant une diagonale parfaite du coin supérieur gauche au coin inférieur droit.

R = -0,70

Décrit une relation négative forte et le nuage de points ressemble à :

Nuage de points formant une diagonale plutôt forte allant du coin supérieur gauche au coin inférieur droit.

R = -0,50

Décrit une relation négative modérée

Nuage de points formant une diagonale plutôt modérée allant du coin supérieur gauche au coin inférieur droit.

R = -0,35

Décrit une relation négative faible à modérée et le nuage de points ressemble à :

Nuage de points formant une diagonale plutôt faible allant du coin supérieur gauche au coin inférieur droit.

R = -0,20

Décrit une relation négative faible

Nuage de points formant une diagonale très faible allant du coin supérieur gauche au coin inférieur droit.

Décrit une absence de relation et le nuage de points ressemble à :

R = 0,00

Nuage de points éparpillé dans tous les sens.

R = 0,20

Décrit une relation positive faible

Nuage de points formant une diagonale très faible allant du coin inférieur gauche au coin supérieur droit.

R = 0,35

Décrit une relation positive faible à modérée et le nuage de points ressemble à :

Nuage de points formant une diagonale plutôt faible allant du coin inférieur gauche au coin supérieur droit.

R = 0,50

Décrit une relation positive modérée

Nuage de points formant une diagonale plutôt modérée allant du coin inférieur gauche au coin supérieur droit.

R = 0,70

Décrit une relation positive forte et le nuage de points ressemble à :

Nuage de points formant une diagonale plutôt forte allant du coin inférieur gauche au coin supérieur droit.

Décrit une relation positive parfaite et le nuage de points ressemble à :

R = 1,00

Nuage de points formant une diagonale parfaite du coin inférieur gauche au coin supérieur droit.

assignment Activité : Interpréter une corrélation provenant d’un article scientifique

Tentons d’interpréter les résultats provenant d’une corrélation retrouvée dans les écrits scientifiques.

Mise en contexte :

Temfemo, Doutrellot et Ahmaidi (2008) ont cherché à comparer les effets de deux types d’intervention sur le renforcement musculaire chez les patients qui ont reçu une prothèse totale de hanche.

Dans la figure qui suit, les auteurs ont voulu mettre en relation la force isométrique du moyen fessier avec l’activité électromyographie du même muscle.

Notes :

  • FIVPic (kg) : Force isométrique volontaire la plus élevée mesurée en kilogramme
  • EMGPic (µV) : Activité électromyographie (activité électronique du muscle) la plus élevée mesurée en microvolt
Prothèse de hanche

Figure provenant de la section des résultats

Nuage de points formant une diagonale très forte allant du coin inférieur gauche au coin supérieur droit.
  1. En observant la figure, diriez-vous que la relation entre la force isométrique et l’activité électromyographie est :
  1. En observant la figure, diriez-vous que la relation entre la force isométrique et l’activité électromyographie est :

info Pour en savoir plus sur les corrélations

D’autres types de corrélations sont utilisés pour mesurer les relations entre des variables ordinales ou une variable ordinale et une variable cardinale.

Par exemple, on peut évoquer la corrélation de Spearman ou encore la corrélation Tau, pour ne nommer que celles-là. S’il y a des différences dans les formules mathématiques utilisées pour calculer le coefficient de ces relations, l’interprétation que l’on en fait est similaire à celle que nous venons d’expliquer pour les corrélations de Pearson. C’est-à-dire qu’une valeur de zéro signifie qu’il n’y a pas de relation alors que des valeurs se rapprochant de 1,0 et de -1,0 signifient des relations fortes.

Les comparaisons entre les moyennes

Les comparaisons entre les moyennes permettent de décrire une relation lorsque :

La variable dépendante est de niveau cardinal.

La variable indépendante est de niveau nominal.

Souvent, la variable nominale contient de deux à quatre catégories (groupes) selon l’étude.

Lorsque l’on compare des moyennes entre des groupes, on compare les moyennes et les écarts-types.

Petit truc :

Si vous voyez les termes test-t, analyse de variance ou ANOVA à la lecture d’un article scientifique, il s’agit de tests statistiques qui permettent la comparaison entre les moyennes.


Les tests-t permettent de comparer les moyennes entre deux groupes.

Normalement, ceci implique que la variable indépendante est de niveau nominal avec deux catégories.


L’ANOVA est l’acronyme pour «  analyse de variance  ». L’ANOVA est habituellement employée lorsque l’on compare les moyennes entre trois groupes ou plus.

Donc, que ce soit test-t ou ANOVA, vous savez que :

  • La variable dépendante est de niveau cardinal.
  • La variable indépendante est de niveau nominal contenant deux groupes (test-t) ou trois groupes et plus (ANOVA).

assignment Activité : Interpréter une comparaison entre les moyennes

Allons voir si vous pouvez interpréter une comparaison entre les moyennes à l’intérieur d’une figure.

Mise en contexte :

Temfemo et al. (2008) ont cherché à comparer les effets de deux types d’intervention sur le renforcement musculaire chez les patients avec une prothèse totale de hanche.

Dans la figure qui suit, les auteurs ont mis en relation le temps de maintien (en secondes) par rapport au moment des tests et par rapport au type d’intervention.

Un physiothérapeute manipule la jambe d’un patient avec une prothèse totale de hanche

Précisions :

Visionnez cette animation pour vous guider.

Transcription

Figure provenant de la section des résultats

Figure illustrant le temps de maintien en seconde en fonction du moment du test et du type d’intervention
  1. En observant la figure, le temps de maintien est-il associé au moment du test ? (Ou en d’autres mots, le temps de maintien diffère-t-il en fonction du moment du test ?)
  1. Toujours en observant la figure, le temps de maintien est-il associé au type d’intervention? (Ou en d’autres mots, le temps de maintien diffère-t-il en fonction du type d’intervention ). Rappel, le type d’intervention comprend le groupe contrôle et le groupe expérimental

Maintenant, cette relation observée à T3 est-elle réelle pour l’ensemble de la population? Les statistiques déductives, que nous verrons ci-dessous, nous permettent de répondre à cette question.

Pouvons-nous déduire que la relation observée s’applique à la population générale?

info_outline Consigne : cliquez sur le symbole pour agrandir l’image.

Dans la section précédente, nous avons porté attention à trois types de relation couramment observés dans les écrits, soit :

Les rapports de cotes ou le risque relatif

Tableau de contingence mettant en relation l’idée suicidaire avec la présence de harcèlement.
Les corrélations
Nuage de points formant une diagonale parfaite du coin supérieur gauche au coin inférieur droit.

Les comparaisons entre les moyennes

Figure illustrant le temps de maintien en seconde en fonction du moment du test et du type d’intervention.

Une fois que nous avons pris connaissance de la relation entre les variables, on veut savoir si ce que nous observons est applicable à la population générale.

Ce sont les statistiques déductives qui nous permettent de répondre à cette question.

Les statistiques déductives

Déduction

Grande foule de personnes à l'aéroport

Une fois qu’une relation entre deux variables est décrite, on cherche à déduire si elle est généralisable ou réelle pour la population ciblée.

Voilà pourquoi les statistiques de relation sont habituellement suivies des statistiques de déduction.

En fait, les statistiques de déduction permettent de répondre à la question suivante.

Le lien décrit est-il réel, oui ou non, pour la population en général?

D’ordre général, on peut catégoriser les statistiques déductives en deux types principaux.

Une image d’une foule pour représenter la population générale

D’abord, il y a l’estimation de paramètres qui utilise les intervalles de confiance (p. ex. on retrouve régulièrement des intervalles de confiance à 95 % dans les écrits).

[IC 95]

Ou encore, il y a les tests d’hypothèses qui utilisent les lois de la probabilité avec une marge d’erreur qui est souvent de 5 %. En fait, c’est à partir des tests d’hypothèse que l’on retrouve le fameux p < 0,05.

p < 0,05

Nous approfondirons les concepts d’intervalles de confiance et de tests d’hypothèses à la prochaine section.

Mieux comprendre les intervalles de confiance et les valeurs de p

Comment déduire si ce que l’on observe à l’intérieur d’un échantillon est représentatif pour la population ciblée?

Nous nous pencherons sur deux stratégies statistiques souvent utilisées en recherche quantitative pour répondre à cette question.

En général, on veut avoir moins de 5 % de risques de se tromper lorsqu’on dit que l’on peut généraliser les résultats à l’ensemble de la population étudiée. Il s’agit d’une convention généralement acceptée, mais d’autres valeurs pourraient être utilisées dans certaines recherches. Voici donc les deux stratégies :


  • L’intervalle de confiance à 95 % (IC 95 %)
  • Le p < 0,05
Une foule sous forme d’un point d’interrogation

assignment Activité : intervalle de confiance à 95 % (IC 95 %)


Jeune femme appréciant une cigarette

Supposons que vous vous intéressez au tabagisme chez les fumeurs âgés 18 à 35 ans.

Votre échantillon contient 50 individus qui, en moyenne, consomment 6 cigarettes / jour et le calcul de l'intervalle de confiance à 95 % donne entre 3,7 et 8,3 cigarettes / jour.

help Que signifient ces résultats pour vous?

Le «  fameux  » p < 0,05

info_outline Consignes :

  1. Lisez les deux résultats suivants.
  2. Quelle serait votre interprétation?
  3. Cliquez sur la carte pour consulter nos réponses.

Les fumeurs sont trois fois plus à risque de développer le cancer des poumons que les non-fumeurs (p < 0,001)

Ces résultats nous indiquent que le lien entre le tabagisme (fumeurs et non-fumeurs) et les cas de cancer des poumons est réel pour la population ciblée, car p < 0,001. Il y donc moins de 1 chance sur 1000 de se tromper en l'affirmant.


Les fumeurs sont trois fois plus à risque de développer le cancer des poumons que les non-fumeurs (p = 0,273)

Ces résultats nous indiquent que même si une tendance est observée, le lien entre le tabagisme et le cancer des poumons n'est pas confirmé, car la valeur de p n'est pas statistiquement significative (p = 0,273).


Maintenant, à vous d’interpréter des résultats

Maintenant que vous comprenez mieux les intervalles de confiance et les tests d’hypothèses, tentez d’interpréter ces résultats qui comprennent des statistiques de relation et de déduction.

Résultat no 1.

Pour une cohorte atteinte du syndrome métabolique, les individus faisant partie du groupe contrôle ont un risque relatif 2,5 fois plus élevé d’être diabétiques que ceux faisant partie du groupe intervention (IC 95 % = 1,3 à 4,2).

Un médecin tenant un petit tableau avec le mot diabète au tableau.
Notre interprétation :

Pour l’échantillon en question, on sait que le risque relatif d’être diabétique est 2,5 fois plus élevé pour les individus du groupe contrôle que pour les individus ayant reçu la nouvelle intervention. Grâce à l’intervalle de confiance à 95 %, on sait que le risque relatif réel pour cette population se situe entre 1,3 et 4,2.


Test de glycémie pour le diabète
Résultat no 2.

Le niveau de glycémie à jeun est modérément corrélé en fonction de l’indice de masse corporelle chez les individus avec un surplus de poids (r = 0,458 ; p < 0,01).

bmi, calculateur d'indice de masse corporelle
Notre interprétation :

Pour l’échantillon, on sait que la glycémie à jeun et l’indice de masse corporelle sont liés avec un coefficient de corrélation où r = 0,458. Comme nous l’avons vu, ce lien peut être considéré de force modérée. Puisque p < 0,01, on a moins de 1 % de chance de se tromper en affirmant que le lien entre la glycémie à jeun et l’indice de masse corporelle est réel pour cette population.


Résultat no 3.

Le niveau de glycémie à jeun est légèrement plus élevé pour le groupe contrôle (6,8 ± 1,3 mMol/L) comparativement au groupe intervention (5,9 ± 1,7 mMol/L) (p < 0,05). .

Test de glycémie pour le diabète
Notre interprétation :

Pour l’échantillon, on voit bien que la glycémie moyenne n’est pas la même en fonction du type d’intervention. Puisque p < 0,05, on a moins de 5 % de chance de se tromper en affirmant que le type d’intervention est lié à la glycémie pour cette population.


Prêt à relever le défi?

Maintenant que vous connaissez le niveau de mesure des variables ainsi que les statistiques descriptives, de relation et déductives, tentez d’interpréter ces résultats provenant d’articles scientifiques.

assignment Activité : rapports de cote

Tentez d’interpréter les résultats qui comprennent des rapports de cote. Pour ce faire, reprenons l’extrait de l’article de Montoro et ses collaborateurs (2015) sur les liens entre l’orientation sexuelle, le harcèlement et l’idée suicidaire chez les jeunes de 14 à 18 ans du Québec.

Rappel :
  • RC = Rapport de cote (ou Odds Ratio en anglais)
  • IC = Intervalle de confiance
Extrait provenant de la section Idée suicidaire, planification et tentative de suicide :

«  ...les élèves s’identifiant comme hétérosexuels sans attirance ou comportement envers le même sexe étaient presque trois fois plus susceptibles de mentionner des idées suicidaires lorsqu’ils étaient victimes de harcèlement, que le même groupe sans harcèlement (RC = 2,76, IC 95 % = 2,06 à 3,69, p < ,001). Les élèves non hétérosexuels ne subissant aucun harcèlement étaient presque quatre fois plus susceptibles (RC = 3,97, IC 95 % = 2,26 à 6,97, p < ,001); et les élèves non-hétérosexuels ayant mentionné du harcèlement étaient plus de huit fois plus susceptibles (RC = 8,13, IC 95 % = 4,68 à 14,15, p < ,001).  »


Extrait tiré de l’article de Montoro et al., 2015.

help À la lecture de ce texte, êtes-vous en mesure d’interpréter les trois résultats?

Résultat 1

RC = 2,76

IC 95 % = 2,06 à 3,69

p < ,001

Résultat 2

RC = 3,97

IC 95 % = 2,26 à 6,97

p < ,001

Résultat 3

RC = 8,13

IC 95 % = 4,68 à 14,15

p < ,001

Faits à noter :

Un rapport de cotes (ou un risque relatif) de 1 signifie qu’il n’y a pas de différence entre deux groupes qui sont comparés. Si l’intervalle de confiance à 95 % contient la valeur de 1, on ne pourra pas dire avec confiance qu’il y a une différence dans la population ciblée.

assignment Activité : coefficients de corrélations

Les coefficients de corrélations sont souvent présentés sous la forme d’un tableau de corrélations dans les écrits.


help Saurez-vous interpréter ces résultats correctement?

Mise en contexte :

Bégin, Boucher, St-Laurent, Heppell et Ratté (2016) ont cherché à mieux comprendre les liens qui unissent l’estime de soi, l’estime corporelle et les attitudes alimentaires par rapport à différentes atteintes à la santé mentale, notamment les troubles des conduites alimentaires et les troubles anxieux.

Femme lisant des étiquettes de produits alimentaires à l'épicerie

Notes :

  • TCA signifie « Trouble des conduites alimentaires »
  • L’estime de soi explicite est mesurée par l’outil Échelle d’Estime de Soi de Rosenberg (ÉES-10)
  • L’estime de soi implicite est mesurée par l’outil Implicit Association Test (IAT)
  • Les attitudes alimentaires dysfonctionnelles sont mesurées par la version francophone de l’outil Eating Disorder Examination-Questionnaire (EDE-Q4)
  • L’insatisfaction corporelle est mesurée par l’outil Échelle d’estime corporelle (EEC)

Voici le tableau 2 de la section résultat qui résume quelques-uns de ces liens. Visionnez cette animation pour connaître quelques éléments clés pour vous guider.

Testez vos connaissances!

Tableau 2

Matrice de corrélations de Pearson des variables à l’étude pour le groupe TCA

Échelles

Estime de soi explicite

Estime de soi implicite

Restriction alimentaire

Préoccupation alimentaire

Préoccupation poids

Préoccupation silhouette

Insatisfaction apparence

Insatisfaction poids

Estime de soi explicite

1

0.03

-0.35**

-0.40**

-0.48**

-0.56**

0.75**

0.55**

Estime de soi implicite

 

1

-0.25

-0.10

-0.24

-0.26

0.09

0.24

Restriction alimentaire

 

 

1

0.57**

0.48**

0.51**

-0.48**

-0.48**

Préoccupation alimentaire

 

 

 

1

0.47**

0.52**

-0.47**

-0.35**

Préoccupation poids

 

 

 

 

1

0.86**

-0.63**

-0.73**

Préoccupation silhouette

 

 

 

 

 

1

-0.69**

-0.73**

Insatisfaction apparence

 

 

 

 

 

 

1

0.79**

Insatisfaction poids

 

 

 

 

 

 

 

1

Note :

L’estime de soi explicite est mesurée par le ÉES-10; l’Estime de soi implicite par l’IAT; les attitudes alimentaires dysfonctionnelles sont mesurés par l’EDE-Q4 et l’insatisfaction corporelle est mesurée par l’EEC.
* p ≤ .05; ** p ≤ .01

1. Quelles sont les deux variables qui ont la relation positive la plus forte?


1.1. Pouvez-vous en faire l’interprétation?

2. Quelles sont les deux variables qui ont la relation négative la plus forte?


2.1. Pouvez-vous en faire l’interprétation?

3. Quelles sont les deux variables qui ont la relation la plus faible?


3.1. Pouvez-vous en faire l’interprétation?

4. Quelle variable n’a aucune relation statistique significative avec l’ensemble des variables?

assignment Activité : comparaisons des moyennes

Les comparaisons des moyennes sont très fréquentes dans les écrits scientifiques.


help Saurez-vous interpréter les résultats qui découlent du tableau qui suit?

Mise en contexte :

Aimé, Cyr, Ricard, Guèvremont et Bournival (2016) ont cherché à préciser les liens entre l’alexithymie, les comportements alimentaires problématiques et la psychopathologie chez les femmes.

Qu’est-ce que l’alexithymie?

L’alexithymie est un trait de personnalité caractérisé par une difficulté à identifier, différencier et exprimer ses émotions.

Jeune femme déprimée mange de la glace au bar

Notes :

  • Les niveaux de restrictions, de préoccupations par rapport au poids et de préoccupations par rapport à la silhouette ont été mesurés par l’outil Eating Disorder Examination Questionnaire-6 (EDE-Q6).
  • L’outil EAT-26 (Eating Attitudes Test-26) mesure les attitudes et comportements alimentaires problématiques.
  • L’estime de soi a été mesurée à partir du Rosenberg Self-Esteem Scale (RSES).
  • La préoccupation face aux erreurs a été mesurée par le Frost Multidimensional Perfectionism Scale (FMPS).
  • Les symptômes dépressifs ont été mesurés par le Center for Epidemiologic Studies Depression Scale (CES-D).

Voici le tableau 1 de la section résultat qui résume quelques-uns des liens entre l’alexithymie et quelques symptômes alimentaires ou facteurs psychologiques.

Tableau 1

Caractéristiques des participantes en fonction de la présence ou de l’absence d’alexithymie

Caractéristiques

Alexithymie (n = 92)

Non-alexithymie (n = 42)

F

p

Indice de masse corporelle

27,68 ± 7,69

30,96 ± 8,45

4,48

.036

Symptomatologie alimentaire

 

 

 

 

Restrictions

2,73 ± 1,80

1,81 ± 1,53

9,27

.003

Préoccupations par rapport au poids

3,72 ± 1,23

4,28 ± 1,49

5,3

.023

Préoccupations par rapport à la silhouette

4,70 ± 1,27

4,22 ± 1,26

4,11

.045

Score total au EAT-26

27,83 ± 14, 93

21,67 ± 11, 89

6,56

.012

Facteurs psychologiques

 

 

 

 

Estime de soi

25,19 ± 5, 90

30,89 ± 5, 75

27,92

.000

Préoccupations face aux erreurs

32,17 ± 7, 35

26,72 ± 8, 18

13,61

.000

Symptômes dépressifs

27,14 ± 11, 39

16,40 ± 9, 77

31,34

.000

En observant le tableau, pouvez-vous discerner :

1. Où se situe la variable nominale?

2. Où se situent les variables cardinales?

3. Que signifient les colonnes F et p?

assignment Vrai ou faux

Comparativement aux femmes non atteintes d’alexithymie, celles qui en sont atteintes ont :

1. Un indice de masse corporelle (IMC) plus élevé

2. Un niveau de restrictions plus élevé

3. Une préoccupation accrue par rapport à leur poids

4. Une préoccupation accrue par rapport à leur silhouette

5. Une estime de soi plus élevée

6. Une préoccupation accrue face aux erreurs

7. Un niveau de symptômes dépressifs plus élevé

Statistiquement significatif ou cliniquement significatif?

Nous avons vu à l’unité 2 (étape 3) que la signification statistique démontre que les résultats ne sont probablement pas dus au hasard.

La signification clinique, quant à elle, suppose que les résultats doivent être utiles et applicables à la pratique.

Nous venons de voir que les statistiques de déduction nous permettent d’être confiant (en général à 95 %) que les résultats observés ne sont pas dus au hasard et qu’ils seraient bien réels non seulement dans notre échantillon, mais aussi dans un autre échantillon tiré de la même population cible.

help Maintenant, les statistiques nous disent-elles quelque chose de la signification clinique?
Infirmière et patient senior pratiquant une activité physique
  • Règle générale, les statistiques de description et les statistiques de relation peuvent nous renseigner sur l’ampleur d’un changement ou d’une relation, alors que les statistiques de déduction nous renseignent seulement sur le degré de confiance que nous pouvons avoir envers ces premiers nombres.
  • Certaines statistiques mesurant la taille de l’effet ont pour but spécifique de nous informer de l’ampleur du changement (par exemple, le d de Cohen), alors que d’autres informations peuvent aider à interpréter l’information contenue dans les statistiques descriptives générales.

Comment utiliser les statistiques de description ou de relation pour savoir si les résultats sont cliniquement significatifs?


Cliquez sur ce document pour voir un exemple.

Devoir optionnel

Vous pouvez maintenant analyser les résultats quantitatifs d’un article de votre choix relié à votre domaine professionnel et envoyer à votre formateur (bpinet@uottawa.ca) l’article choisi en précisant la portion du texte, le tableau ou la figure en question en plus des réponses aux questions suivantes :

  1. Quelles sont les variables dépendantes et indépendantes?
  2. Quel est le niveau de mesure (nominal, ordinal ou cardinal) pour chacune de ces variables?
  3. Les éléments communiqués sont-ils de nature descriptive, relationnelle ou déductive?
  4. Si les résultats comprennent des statistiques déductives, semble-t-il y avoir un lien significatif entre les variables dépendantes et indépendantes?

Vous recevrez ainsi de la rétroaction à votre analyse.

Concepts clés

Voici les concepts clés qui sont importants à retenir pour une meilleure compréhension des résultats statistiques.

Les résultats statistiques nous communiquent normalement trois éléments :

  • La description d’une variable;
  • La relation entre deux ou plusieurs variables;
  • La déduction, à savoir si la relation observée dans l’échantillon est réelle pour la population ciblée.

À la lecture des résultats quantitatifs d’une étude scientifique, tentez de discerner :

  • Les variables dépendantes et indépendantes;
  • Le niveau de mesure de ces variables;
  • Les éléments qui sont communiqués, soit des éléments de description, de relation ou de déduction. 

Même si un résultat s’avère statistiquement significatif, prenez la peine de retourner voir les statistiques de description ou de relation pour déterminer si les résultats observés sont applicables cliniquement.

Avec ces quelques concepts clés, vous voilà mieux outillé pour développer votre sens critique à la lecture des résultats quantitatifs!

Conclusion


Est-ce que l’atelier a permis d’atteindre vos objectifs identifiés en début d’atelier?


Nous espérons que vous avez répondu positivement à cette question et que vous sentez que vous êtes plus apte à intégrer la pratique fondée sur les données probantes. Si certaines questions demeurent en suspens, nous vous invitons à communiquer avec la personne-ressource de l’atelier.

bpinet@uottawa.ca

Vous pouvez également survoler l’onglet Ressources qui comprend plusieurs documents que vous pourrez trouver utile de conserver.

Vous pouvez maintenant passer à l’évaluation de l’atelier. Après cette évaluation, vous pourrez faire l’examen final si vous souhaitez recevoir une attestation pour cet atelier.


Passer à l'évaluation de l’atelier   Passer à l’examen final