COMPRENDRE L’INTELLIGENCE ARTIFICIELLE EN MEDECINE N°2: DEPISTER LE MELANOME
ll ne se passe plus de mois sans qu'un nouveau logiciel issu de l'intelligence artificielle ne soit déclaré "meilleur que les médecins" et présenté au public. Que signifie vraiment cette formule? Peux-t-on réellement implanter des systèmes automatiques en lieu et place des médecins?
Dans cette rubrique nous rendons compte d'études dont les résultats sont généralisables à l'ensemble de l'intelligence artificielle médicale. En décrivant les faits scientifiques, nous espérons mettre à disposition du plus grand nombre des informations de fond permettant à chacune et chacun d'appréhender le débat de société entourant l'IA médicale.
Ce second numéro de COMPRENDRE L'IA EN MEDECINE nous montre l’importance de lire soigneusement les articles scientifiques publiés dans le champ de l’intelligence artificielle en santé. Nous rapportons 2 études ayant évalué la performance d’un logiciel de diagnostic automatisé du mélanome. L’une est parue en 2017 dans la revue Nature, l’autre en 2018 dans Annals of Oncology.
Le succès obtenu par les 2 équipes de chercheurs a été largement répercuté par les médias et les réseaux sociaux. Pourtant, la réalité des résultats scientifiques ne rejoint pas la fiction d’une intelligence artificielle autonome. Il faut dire que le titre de l’article le plus récent, « L’homme contre la machine », manifestement choisi pour assurer le buzz, entretient savamment la confusion.
Comme nous le verrons, le groupe des 58 dermatologues ayant « surpassé la machine » , selon l’expression d’une revue grand public d’actualités scientifiques, n’est pas homogène. Seuls 30 avaient à leur actif une expérience supérieure à cinq ans et étaient qualifiés d’experts. Parmi eux, 22 ont été plus performants que l’algorithme d’intelligence artificielle. Les chercheurs exposent pourtant clairement leur résultats. Si l’emphase permet d’exister sur les réseaux sociaux, elle s’accomode mal d’exactitude de l’information. Celle-ci est pourtant nécessaire pour garder sa rationalité dans un débat public fort agité.
Est-ce à dire qu’il faut prendre le contrepoint des réseaux sociaux et démentir la victoire de la machine ? Non. Car le point de débat n’est pas là. La supériorité ou l'infériorité de l’être humain face à la machine n'est pas un sujet pertinent. Il n’y a pas de compétition à organiser entre l’un et l’autre. L´IA est un outil en construction qui se doit d’être évalué selon des méthodes scientifiques. Or, la comparaison entre méthodes diagnostiques ou entre traitements est la base de la méthodologie de la recherche médicale.
La comparaison organisée dans ces études n'est donc rien d’autre que la méthode scientifique nécessaire à l’évaluation de la technique. L’interprétation des résultats ne doit pas extrapoler vers un hypothétique remplacement des médecins par l’IA, comme certains ont été tentés de le faire. Il n’existe à ce jour aucun résultat scientifique, que ce soit dans les 2 études présentées ici, ou ailleurs, qui permettent d’argumenter dans ce sens.
Dans l’exposé qui suit, nous vous proposons de lire avec rigueur et méthodologie les 2 publications relatant le diagnostic du mélanome par IA. Nous nous poserons ensuite une question simple : à quoi cela peut-il servir dans la médecine du quotidien?
LES MOTS DE L'INTELLIGENCE ARTIFICIELLE
Réseau de neurones. Il s'agit d'une succession d'opérations mathématiques qui reproduisent le fonctionnement des neurones biologiques. Le réseau de neurones est à la base du fonctionnement de l'intelligence artificielle et de son apprentissage
Réseau de neurones convolutif. Il s'agit d'un réseau de neurones particulier bien adapté au traitement d'images. Les chercheurs ont utilisé un réseau de neurones convolutif avec pour données d’entrée (input) les pixels et les noms des maladies à diagnostiquer.
Deep learning. Il s'agit d'une technique d'apprentissage machine. C'est elle qui fait le succès actuel de l'IA. Etudiée depuis plus de 30 ans, elle ne s'est imposée que dans la décennie 2010 grâce aux progrès de l'informatique qui ont apporté 2 changements importants: premièrement l'augmentation considérable de la vitesse de calcul des ordinateurs et deuxièmement leur capacité à enregistrer de très grandes bases de données (le big data).
PRESENTATION GENERALE
Tout comme le cas présenté dans le premier numéro (calcul d’un risque cardio-vasculaire par analyse d’une photographie de rétine) il s’agit ici de technique de reconnaissance visuelle.
Le premier travail est américain, le second est allemand avec participation de français (du centre de recherche contre le cancer de Lyon) et d’américains. Bien qu’effectuées par 2 équipes différentes, les 2 études sont liées. En effet, les chercheurs ont utilisé 2 versions différentes du logiciel de reconnaissance visuelle GoogleNet Inception. Les résultats de la deuxième étude viennent confirmer et compléter ceux de la première. Il ne s’agit pas de travaux cliniques car ils n’ont pas été réalisés auprès de vrais patients. Le matériel des études provenait de bibliothèques d’images existantes de lésions dermatologiques. Chacune était étiquetée avec son diagnostic.
Dans les 2 expériences, il s'agissait de reconnaître le bon diagnostic en face de chaque image, les chercheurs comparant la performance du logiciel à celle des dermatologues.
Le mélanome est un cancer de la peau. La première étape de son diagnostic est un dépistage visuel, soit a l'œil nu, soit au moyen d'un dispositif grossissant appelé dermoscope. Le diagnostic définitif est apporté par la biopsie et l'examen anatomopathologique.
DEROULEMENT ET RESULTAT DE LA PREMIERE ETUDE
La première étape, préalable à l’apprentissage d’un réseau de neurones est une phase d’initialisation appelée pré-entraînement. Le logiciel d’IA a été pré-entraîné sur la banque ImageNet Large Scale Visual Recognition Challenge qui comprend 1.28 millions d’images.
L’entraînement à proprement parler est la seconde étape. Il est lui même divisé en 2 phases.
Le réseau de neurones a été entraîné à partir d'une base de données de 129 450 images issues de photographies et de dermoscopies et représentant 2032 maladies différentes.
La première phase consistait à répartir les images en 3 classes : lésions bénignes, lésions malignes et lésions non-néoplasiques. Dans cette étape préalable, le réseau de neurones a été comparé à 2 dermatologues. Le logiciel a obtenu un taux de bonnes réponses de 72%, les 2 dermatologues respectivement 65 et 66%.
Puis, une deuxième phase a été organisée pour affiner le diagnostic. L’objectif était de répartir les images dans 9 catégories définitives de lésions dermatologiques. Le logiciel et les 2 dermatologues ont obtenu le même taux d’exactitude de 55%.
Pour valider l’algorithme, les chercheurs ont ensuite réalisé une deuxième expérience. L’objectif était de classer convenablement un groupe d’images dans l’une des catégories binaires suivantes: carcinome kératinocyte versus kératose séborrhéique bénigne ou mélanome malin versus naevus bénin. Le diagnostic était connu, prouvé formellement par biopsie ( ce qui n’était pas le cas de la première expérience). 21 dermatologues ont été inclus. Pour chaque image, il fallait indiquer la conduite à tenir: faire une biopsie de la lésion ou bien s’abstenir et rassurer le patient. Dans cette phase, le réseau de neurones a obtenu une performance équivalente à celle des dermatologues.
VIDEO DE PRESENTATION DE L'ETUDE PAR L'UN DES CHERCHEURS ( EN ANGLAIS)
DEROULEMENT ET RESULTAT DE LA DEUXIEME ETUDE
La seconde étude a concerné uniquement des images de dermoscopie, 300 au total, provenant de la bibliothèque de dermatologie de l’université de Heidelberg en Allemagne. 20% représentaient des mélanomes, 80% des naevus bénins (Grain de beauté). Au sein de ce groupe de 300, les chercheurs ont extrait 100 images pour effectuer la comparaison entre le réseau de neurones convolutif et les dermatologues.
Les dermatologues participants ont été recrutés à partir d’une invitation envoyée par mail à une liste de la société internationale de dermoscopie. Sur 172 médecins invités, 58 ont accepté de participer. Ils étaient de 17 pays différents. Dans ce groupe de 58, 17 ( 29.3%) étaient débutants (expérience inférieure à 2 ans), 11 (19%) avaient une expérience de 2 à 5 ans. Un peu plus de la moitié 30 /58, (51.7%) étaient déclarés experts, avec une expérience de plus de 5 ans.
Les dermatologues étaient sollicités 2 fois au cours de cette étude. Dans la première phase, dite lecture I, on leur présentait l’image de dermoscopie et on leur demandait de ranger la lésion dans l’une des 2 catégories suivantes mélanome ou naevus bénin. Ils devaient également choisir parmi les décisions thérapeutiques suivantes: excision, suivi clinique à court terme et renvoi à domicile sans autre suivi.
Après 4 semaines, les mêmes participants étaient ré-interrogés dans la phase dite lecture II. Il s’agissait des mêmes 100 images de dermoscopie mais en gros plan et accompagnées d’ informations cliniques, ce qui n’était pas le cas dans la phase de lecture I.
Résultat de la phase lecture I.
En moyenne, les dermatologues ont une sensibilité de 86%, une spécificité de 71%. Les résultats des experts étaient supérieurs à ceux des débutants. Concernant les décisions thérapeutiques, la sensibilité était de 98% et la spécificité de 71% seulement.
Les praticiens expérimentés avaient significativement moins de naevus bénins retirés inutilement.
Résultat de la phase de lecture II. L’ajout d’informations cliniques et d’images en gros plan a augmenté la sensibilité et la spécificité. Le bénéfice concernait les dermatologues débutants et peu expérimentés. Les résultats des médecins expérimentés n’étaient pas modifié.
Le réseau de neurones. Il atteignait une sensibilité de 95% et une spécificité de 63% sur le set de 100. Sur le set de 300, les résultats étaient: sensibilité: 95%, spécificité: 80%.
QU'EST-CE QUE LA SENSIBILITE ET LA SPECIFICITE
Il s'agit de calculs statistiques très utilisés en recherche médicale. Lorsque l'on utilise un test diagnostic, il y a 4 résultats possibles au total. Prenons l'exemple de la grippe que l'on peut rechercher par un prélèvement de sécrétions dans le nez.
Première possibilité. La personne a la grippe, le test est positif. Le diagnostic a été effectué convenablement chez une personne malade. C'est un vrai positif.
Deuxième possibilité. La personne n'a pas la grippe. Le test est positif et diagnostique une grippe par excès. C'est un faux positif.
Troisième possibilité. La personne a la grippe mais le test est négatif. Sa grippe n'est pas diagnostiquée. C'est un faux négatif.
Quatrième possibilité. La personne n'a pas la grippe, le test est bien négatif. C'est un vrai négatif.
Les calculs de sensibilité et de spécificité vont permettre de mesurer la performance des tests diagnostics.
Sensibilité. Elle mesure la proportion de vrais positifs parmi les malades. Elle correspond donc à la probabilité que le test soit positif si l'on est malade.
Spécificité. Elle mesure la proportion de vrais négatifs parmi les non malades. Elle correspond donc à la probabilité que le test soit négatif si l'on n'est pas malade.
Comparaison dermatologues et réseaux de neurones.
La fiabilité diagnostique du réseau de neurones était supérieure à celle des dermatologues car sa spécificité était supérieure aux 2 niveaux de lecture I et II.
Interprétation des auteurs. Pour la première fois un réseau de neurones convolutif a surpassé un groupe international de 58 dermatologues dont 30 experts dans le diagnostic de mélanomes. Ils remarquent cependant que 22% des dermatologues ont été meilleurs que l’algorithme dans le niveau de lecture I. Il est donc supérieur à la plupart des dermatologues mais pas tous.
Leur conclusion est qu’un réseau de neurones peut être entrainé à établir des diagnostics fiables de mélanomes. Il pourrait ainsi, à l’avenir, être un bon outil d’aide au diagnostic pour les dermatologues. Tout comme les chercheurs de la première étude, les auteurs pensent que ce type d’intelligence artificielle pourrait être introduit dans des appareils portables type Smartphone.
COMMENTAIRE DE LA REDACTION DE MEDECINE ET ROBOTIQUE
Le deep-learning est un progrès pour l’intelligence artificielle. Il a permis une avancée technologique réelle dans la reconnaissance automatisée d’images et son potentiel semble pouvoir s’étendre à tous les champs de la médecine qui en utilisent: observations à l’oeil nu des dermatologues, fonds d’oeil des ophtalmologues, radiologues…
Le niveau atteint par le logiciel de Google dans la reconnaissance du mélanome est intéressant car il tient la comparaison avec des médecins spécialistes. Dans la deuxième étude, 22% des dermatologues ont des résultats supérieurs à celui du logiciel. Il n’y a donc, pour le moment, pas de supériorité franche de l’IA. Elle ne peut pas, à ce stade, être adoptée comme méthode diagnostique de référence. Bien que la recherche se poursuive pour améliorer la performance de l’IA, les chercheurs parlent déjà d’une implantation dans des appareils aussi simples d’utilisation que des smartphones.
L'organisation de vastes études cliniques de confirmation destinées à vérifier les résultats de ces travaux préliminaires nous semble indispensable avant toute exploitation commerciale. Mais celle-ci pourrait cependant être assez rapide car le logiciel nous paraît suffisamment mature pour intégrer la médecine de dépistage.
En effet, si en l’état actuel, l'intelligence artificielle n’apporte pas de valeur ajoutée par rapport à un spécialiste expérimenté, sa performance est très intéressante pour des médecins ou des professionnels de santé polyvalents. Nous pensons aux médecins généralistes de ville ou aux infirmières des centres de prévention dont l’un des rôles est de dépister le mélanome et d’adresser les patients au spécialiste en fonction de leurs constatations.
C’est donc très probablement dans le dépistage réalisé par des non-spécialistes que ce logiciel de diagnostic automatisé peut trouver sa place.
REFERENCES
Première étude:
Deuxième étude:
LES AUTRES ARTICLES DE LA RUBRIQUE
COMPRENDRE L'IA EN MEDECINE N°1. GOOGLE PREDIT LE RISQUE CARDIO-VASCULAIRE
COMPRENDRE L'IA EN MEDECINE N°3: DIAGNOSTIQUER DES METASTASES DE CANCER DU SEIN
SUR LES PRINCIPES DE L'INTELLIGENCE ARTIFICIELLE ET DU DEEP LEARNING, UNE VIDEO EXPLICATIVE TRES SIMPLE
Inscrivez-vous au site
Soyez prévenu par email des prochaines mises à jour
Rejoignez les 23 autres membres