Validité des études et outils de mesure
Dans cette 3ème partie de notre dossier, nous allons essayer de faire une brève introduction à la lecture critique. Il n’est pas toujours aisé de déterminer à quel point une étude est fiable, surtout quand on ne sait pas comment se déroule une recherche scientifique. Bien qu’il ne soit pas obligatoire d’être un expert dans ce domaine (prendre la peine de chercher dans la littérature scientifique des aides pour améliorer sa pratique, c’est déjà un grand pas !), la lecture d’article est tout de même facilitée dès lors que l’on identifie rapidement les différents critères influençant la fiabilité des résultats et leur portée possible au niveau clinique.
Il faut distinguer plusieurs choses :
1. Il existe des échelles qui permettent de classer l’ensemble des études produites les unes par rapport aux autres en fonction de leur fiabilité scientifique, tout en gardant en tête que selon votre problématique de départ, l’étude avec le plus haut niveau de preuve ne sera pas forcément la plus adaptée.
2. Pour chaque étude, il faudra également identifier le niveau de validité interne et externe.
3. Il faudra également déterminer la qualité des outils de mesure utilisée, qui est d’ailleurs en lien direct avec la validité interne de l’étude en question.
1. Les échelles de niveau de preuve
Il existe plusieurs façons de classer la littérature scientifique, mais celle dont on nous parle le plus est l’échelle d’Oxford (OCEBM Table of Evidence Working Group « The Oxford 2011 Table of Evidence »). Le CEBM, Centre for Evidence-Based Medicine d’Oxford, est un regroupement professionnel dont les buts sont de promouvoir, développer, et former à la pratique de la médecine basée sur les preuves les différents acteurs de la santé afin de maintenir le plus haut niveau de qualité de soins possible. Sur le site, www.cebm.net, on peut trouver différentes aides pour conduire une recherche, évaluer la qualité d’une étude, ainsi que des outils plus pointus pour les chercheurs aguerris, et des publications concernant les travaux de recherche au sein du CEBM (mais ce n’est en aucun cas une base de données).
Ils ont donc établi une échelle qui classifie de 1 à 5 les études, 1 étant le niveau de fiabilité le plus haut. Sur le site on peut voir qu’une deuxième version de l’échelle a été créée, encore « à l’essai », la première datant de 1998. Ils fournissent également les explications reliées aux différents termes employés et les raisons de ce classement en fonction des caractéristiques propres à chaque type d’étude. Beaucoup d’abréviations anglaises sont utilisées (ex. : SR = sytematic review = revue systématique), vous pouvez vous reporter à notre précédent article pour leur traduction française.
La base de données axée sur la physiothérapie, PEDro, a elle aussi mise en place une échelle comportant 11 critères d’évaluation, qui donne une note de 1 à 10, le plus haut niveau de preuve étant 10. Vous pouvez la télécharger sur le site (Cliquez ICI). Chaque paramètre évalué est clairement expliqué, ce qui permet de comprendre un peu plus les différents critères de validité d’une étude.
2. Validité individuelle d'une étude
Une fois la hiérarchie de ces études établie, il faut vérifier la validité individuelle des études. En effet, même si une étude possède un meilleur niveau de preuve qu'une autre, la manière dont elle est menée peut la rendre moins valide qu'une autre étude de niveau inférieur. Pour parler de cette validité, on utilise les termes de validité interne et validité externe.
Validité interne
La validité interne est la capacité d’une étude à répondre correctement et précisément à sa problématique (1). Pour cela, elle doit utiliser des moyens et des outils d’évaluation de qualité, c’est-à-dire reproductibles et adaptés aux patients, et répondre à certaines conditions :
• Les patients recrutés doivent former une population suffisamment homogène, ou large pour éliminer l’effet des différences inter-individuelles pouvant avoir une influence sur les résultats.
• Les évaluateurs doivent tous évaluer de la même manière les patients et apporter les mêmes traitements. Ils doivent donc être suffisamment formés.
• Dans la mesure du possible, les patients et les intervenants doivent être traités ou agir “en aveugle”, c’est-à-dire que le patient ne sait pas lequel des deux traitements comparés il reçoit, ou/et que l’évaluateur ne sait pas à quel groupe le patient appartient. Lorsque ces deux conditions sont réunies, on dit que c’est une étude en double aveugle.
• Le design expérimental est également important, à savoir l'ordre des évaluations et/ou des interventions, la présence d'un groupe contrôle, l'aspect prospectif ou retrospectif… puisque ce design définit le niveau de preuve.
• La taille de l’échantillon de sujets influe sur la « puissance statistique » c’est-à-dire la capacité d’un test à détecter un effet significatif (1). Plus l’échantillon est grand, plus la fiabilité des résultats sera importante et plus ils seront généralisables à la population étudiée.
Validité externe
La validité externe désigne la capacité d’une étude à pouvoir appliquer ses résultats sur le plan pratique à un maximum de personnes (2). C’est la question qui intéresse le plus les cliniciens.
Pour le savoir il faut regarder où et comment sont recrutés les patients, quels sont les critères d’inclusion et d’exclusion... Une étude multicentrique (réalisée dans plusieurs établissements) aura ainsi une meilleure validité externe, car elle étudiera plusieurs populations issues de différentes zones géographiques, avec différents intervenants, différents groupes socio-culturels, différentes approches. La validité externe n'est importante que si la validité interne est bonne. Toutefois, cela est à pondérer avec le fait qu’une validité interne très importante, concernant l’homogénéité des sujets par exemple (même pathologie et antécédents comparables), ne pourra en conséquence pas forcément avoir une validité externe trop forte, car le nombre de patients pouvant bénéficier des applications de cette étude sera alors plus restreint.
3. Qualité des outils de mesure
Comme nous venons de le préciser précédemment, la qualité des outils d’évaluation joue un rôle sur la qualité d’une étude, et notamment sur sa validité interne. Ce point est majeur autant pour les chercheurs qui obtiennent ces "données probantes" que pour les cliniciens, qui utilisent des outils d'évaluation clinique à longueur de journée. Avant d'utiliser une évaluation pour réaliser le bilan de son patient, il faut faire attention à plusieurs critères qui définissent les qualités psychométriques des outils de mesure (1):
- sa validité : la qualité qui indique que l'outil mesure bien la variable clinique recherchée. Alors que cette qualité est assez évidente pour un dynamomètre, qui mesure la force, ou un test de vitesse de marche sur 10 mètres, la question devient plus délicate pour l'évaluation de la qualité de vie, de la confiance en l'équilibre…
- sa fiabilité (ou fidélité) : c’est la capacité de l’outil d’évaluation à garder la même valeur si aucun changement n’est survenu chez une même personne entre deux moments différents (= fidélité intra-juge) et à garder la même valeur quelque soit l’évaluateur (=fidélité inter-juge). En clair, la mesure faite par cet outil est-elle reproductible ? Les erreurs peuvent être dues au sujet, à l’évaluateur, à l’instrument de mesure lui-même et/ou aux conditions environnementales lors de l’évaluation. Vous risquez de lire lors de vos recherches approfondies des termes tels que : erreur standard de mesure (SEM), intervalle de confiance, coefficient de corrélation intraclasse (ICC) ou encore scores de kappa (k) de Spearman’s et autres Pearson’s correlation. Tous ces mots un peu barbares sont des tests statistiques permettant de mesurer la fiabilité.
- sa sensibilité : c’est la capacité qu’a l’outil utilisé pour déceler un changement réel de la variable étudiée. Cela signifie qu’on veut que le plus petit changement possible mesurable soit décelable lors de la collecte de données. Elle est à différencier du « changement cliniquement significatif » qui représente la « quantité » de changement nécessaire pour avoir un retentissement dans les activités de vie quotidienne.
Évidemment ces qualités sont inutiles si l'outil est mal utilisé, c'est-à-dire que son application n'est pas standardisée.
Voilà tout pour cette troisième partie concernant la kinésithérapie basée sur les preuves. Nous espérons que toutes ces infos vous serons bien utiles. Pour toutes vos questions n'hésitez pas à commenter. Dans le prochain article vous retrouverez une liste des différentes base de données pour commencer vos recherches bibliographiques et les détails pour savoir comment les utiliser.
(1) Dianne V. Jewell (2008). Guide to Evidence-based physical therapist pratice, 2e éd.
(2) Elizabeth Domholdt (2005). Rehabilitation research : principles and applications, 3e éd.