Intelligence Artificielle en médecine: existe-t-il une "exception digitale" qui fausse les résultats ?
En 2016, Geoffrey Hinton, l’un des inventeurs des réseaux de neurones artificiels, affirmait qu’il ne faudrait que 5 ans à 10 ans à l’intelligence artificielle pour supplanter les radiologues. La déclaration a fait date et a influencé le débat public. A tel point, que certains se sont aventurés à demander la fin de la formation de médecins radiologues.
Il est un fait que l’imagerie est le champ d’activité médicale le plus propice au développement d’algorithmes issus de l’apprentissage profond. Cette méthode d’apprentissage machine est à l’origine des succès spectaculaires obtenus par plusieurs équipes de chercheurs à travers le monde. Depuis environ 3 ans, les annonces de systèmes autonomes capables d’interpréter des images médicales avec « plus d’efficacité que des médecins expérimentés » se multiplient.
Qu'en est-il réellement? C'est la question que s'est posée un groupe de radiologues de l'université de Séoul en Corée du Sud. Bien moins médiatisés que Geoffrey Hinton ou que les chercheurs de GOOGLE, ils se sont penchés sur la qualité scientifique des études impliquant l’IA en imagerie médicale. Ils ont examiné 516 articles publiés dans des revues scientifiques en 2018 et livrent leurs conclusions dans le numéro de mars 2019 du Journal Coréen de Radiologie.
Quelles informations étaient recherchées à l'intérieur des 516 articles?
Les auteurs ont cherché à savoir si la méthodologie des études publiées en intelligence artificielle était en adéquation avec les principes scientifiques de la recherche clinique.
Ils rappellent, dans leur introduction, que la validation d’une innovation peut se faire pour évaluer 3 effets potentiels: la performance diagnostique, l’effet sur le pronostic médical et l’efficacité sociale, c’est-à-dire le rapport entre les coûts et les bénéfices escomptés.
En se référant aux règles habituelles de la recherche clinique, ils définissent les conditions que devraient respecter les chercheurs en intelligence artificielle médicale. Tout d'abord, il faudrait disposer, pour effectuer des tests de terrain, de données différentes de celles ayant servi à entraîner les machines. Ces données doivent être en nombre suffisant et devraient provenir de patients nouveaux, recrutés de façon prospective, dans des centres différents de celui qui a conçu le système d'IA. Enfin, elles doivent être représentatives des variations démographiques des malades et de la variabilité de leurs situations cliniques.
_____________________________________________________________________________________________________________________________________
Les radiologues de Seoul se réfèrent à quelques règles fondamentales de la recherche clinique. Quelles sont-elles?
Des groupes homogènes de malades
En recherche clinique, les patients sont sélectionnés pour participer. En effet, pour obtenir un résultat interprétable, il faut comparer entre elles des personnes comparables. Par exemple, si on veut tester un nouveau traitement anti-hypertenseur, il faut organiser une comparaison avec un ancien médicament entre des groupes de malades qui se ressemblent. Toutes les personnes doivent bien entendu être atteinte d'hypertension artérielle. Mais certains éléments pourraient fausser les résultats: l'âge, le sexe, d'autres maladies comme le diabète par exemple. Pour que la comparaison soit fiable, les 2 groupes doivent comprendre la même proportion d'hommes et de femmes, de diabétiques etc. Ainsi, la recherche peut se faire dans des conditions proches de la réalité et donner des résultats fiables qui seront ensuite applicables dans "la vraie vie".
Etude prospective
Une étude prospective est une étude qui inclue des personnes sélectionnées. Elle s'oppose à l'étude rétrospective qui analyse les dossiers clos de malades déjà soignés. Pour étudier l'effet d'une technique médicale innovante ou d'un nouveau médicament, il faut organiser une étude prospective. Ainsi, il est possible de recruter les groupes homogènes dont nous avons parlé plus haut et d'organiser un suivi très précis des malades inclus. L'étude prospective est un élément essentiel de la fiabilité de l'évaluation de l'innovation en médecine.
Etude multi-centrique
Une étude ayant lieu dans plusieurs centres. Une étude qui n'a qu'un seul centre comprend toujours un biais de recrutement, le premier d'entre eux est géographique. D'une ville à l'autre, vivent des personnes différentes. Le fait d'impliquer plusieurs centres permet de limiter ces biais de recrutement et d'augmenter les chances d'obtenir un groupe de personnes participantes représentatif de la population générale.
_____________________________________________________________________________________________________________________________________
Les auteurs constatent que les chercheurs en intelligence artificielle s’affranchissent des règles de la recherche clinique et créent une véritable «exception digitale». En effet, les informaticiens évaluent la performance de leurs algorithmes à partir de données tests. Mais celles-ci sont extraites par sélection aléatoire à l’intérieur de la base de données qui a servi à entraîner la machine (Sur ce point, voir nos articles de la série "COMPRENDRE L'IA EN MEDECINE"). Il n’existe donc pas de validation extérieure, « dans la vraie vie », contrairement aux pratiques habituelles de la recherche médicale.
Pour comprendre l'ampleur de ce phénomène, les radiologues de Séoul ont donc analysé 516 études publiées en 2018. Seulement 31, soit 6% avaient fait l’objet d’une validation extérieure. Mais aucune de ces 31 ne remplissait les conditions méthodologiques habituelles de la recherche clinique à savoir l’organisation d’une cohorte de suivi, le caractère prospectif et l’aspect multi-centrique.
DISCUSSION DES AUTEURS
Leur analyse des 516 articles confirme ce que d’autres avant eux avaient détecté: la plupart des travaux publiés en IA pour imagerie médicale ont un faible niveau de preuves. Elles correspondent à des études de faisabilité technique et n’ont pas la méthodologie requise pour démontrer une efficacité dans le monde réel.
COMMENTAIRE DE MEDECINE ET ROBOTIQUE
L'article des radiologues coréens est bienvenu. Ils montrent que le mouvement de l’intelligence artificielle médicale se fait à contre-courant des principes de la recherche médicale. Une "exception digitale" s'est constituée. Mais elle n'a aucune justification scientifique.
La médecine est en effet une science biologique et sociale. Biologique, car le corps humain est un assemblage de cellules. Leur dysfonctionnement est à l'origine des maladies. Sociale, car la recherche médicale doit prendre en compte la diversité humaine. Pour cela, elle doit sélectionner des groupes représentatifs de la population générale. Tout phénomène observé chez un individu (par exemple l’effet d’un médicament ) est l’aboutissement de processus complexes au cours desquels cellules et organes interagissent avec leur environnement. Il en résulte qu'en médecine, il est presque impossible d’obtenir un résultat d’expérience fiable si les tests ne sont pas effectués au plus près des conditions réelles. C'est la raison pour laquelle la recherche clinique est organisée autour d'une méthodologie stricte et contraignante. Le vivant a donc ceci de particulier, qu’une technologie ne peut y être introduite ex cathedra. On "n’implémente" pas une technologie dans l’organisme comme on charge un logiciel.
Ainsi, la répercussion médiatique des résultats des expérimentations d’intelligence artificielle médicale est totalement contre-intuitive. C'est ce qui a conduit les radiologues de Séoul à mener leur analyse. Comme ils le montrent, l’intelligence artificielle médicale en est encore au stade de l’étude préliminaire.
Il ne s’agit certainement pas de minimiser l'impact de la technologie sur la médecine. Mais, sous peine de subir les plus grands échecs, l’IA doit s'intégrer dans une démarche scientifique d’évaluation de terrain. Les compétitions spectacles, telle celle organisée en Chine l'an passé entre un groupe de radiologues et une IA qui s'affrontaient pour interpréter des scanners cérébraux ne peuvent en tenir lieu.
Les échecs existent déjà. Le système d'intelligence artificielle WATSON d’IBM, qui a été annoncé en 2013 comme une révolution du diagnostic médical, ne s'est toujours pas implanté et est en grande difficulté commerciale. Cet exemple devrait encourager à davantage de mesure et, surtout, de réalisme, toutes celles et tous ceux qui prophétisent le remplacement rapide des médecins par des systèmes automatisés. Il est parfaitement irresponsable, comme cela a été fait récemment, de réclamer la diminution du nombre de médecins en formation ou la suppression pure et simple de telle ou telle spécialité en se basant sur un niveau de preuves aussi bas. Prétendre que les médecins vont disparaitre prochainement pour être remplacés par une IA et que les malades seront soignés par des robots intelligents et autonomes est une absurdité.
Avant de vouloir se projeter sur les effectifs et de produire des prédictions chiffrées toutes plus fausses les unes que les autres, il conviendrait de définir le portrait robot de la médecine du XXIe siècle. Comment sera-t-elle exercée? Quelles maladies rencontrera-t-elle? Concernant le futur de la profession médicale, tout au plus peut-on écrire que certaines tâches seront automatisées et que les médecins devront, à l’avenir, être plus polyvalents pour s’adapter. A ce jour, très franchement, il est difficile d’aller plus loin dans la prospective.
REFERENCES
Article des radiologues de Seoul
Design Characteristics of Studies Reporting the Performance of Artificial Intelligence Algorithms for Diagnostic Analysis of Medical Images: Results from Recently Published Papers par Dong Work Kim et Coll.
Sur la recherche clinique
L'article de WIKIPEDIA est très clair et bien renseigné
https://fr.wikipedia.org/wiki/Essai_clinique
Les rubriques du BLOG consacrés à l'IA médicale
COMPRENDRE L'INTELLIGENCE ARTIFICIELLE EN MEDECINE
Inscrivez-vous au site
Soyez prévenu par email des prochaines mises à jour
Rejoignez les 23 autres membres