CheXagent : Vers un modèle de fondation pour l'interprétation des radiographies thoraciques
CheXagent: Towards a Foundation Model for Chest X-Ray Interpretation
January 22, 2024
Auteurs: Zhihong Chen, Maya Varma, Jean-Benoit Delbrouck, Magdalini Paschali, Louis Blankemeier, Dave Van Veen, Jeya Maria Jose Valanarasu, Alaa Youssef, Joseph Paul Cohen, Eduardo Pontes Reis, Emily B. Tsai, Andrew Johnston, Cameron Olsen, Tanishq Mathew Abraham, Sergios Gatidis, Akshay S. Chaudhari, Curtis Langlotz
cs.AI
Résumé
Les radiographies thoraciques (RX) constituent l'examen d'imagerie le plus fréquemment réalisé en pratique clinique. Les récents progrès dans le développement de modèles de base (FMs) vision-langage ouvrent la possibilité d'une interprétation automatisée des RX, ce qui pourrait aider les médecins dans la prise de décision clinique et améliorer les résultats pour les patients. Cependant, le développement de FMs capables d'interpréter avec précision les RX est complexe en raison (1) de la disponibilité limitée de jeux de données vision-langage à grande échelle dans le domaine des images médicales, (2) de l'absence d'encodeurs vision et langage capables de capturer les complexités des données médicales, et (3) du manque de cadres d'évaluation pour comparer les capacités des FMs en matière d'interprétation des RX. Dans ce travail, nous relevons ces défis en introduisant d'abord CheXinstruct, un jeu de données d'ajustement par instruction à grande échelle, constitué à partir de 28 jeux de données publics. Nous présentons ensuite CheXagent, un FM ajusté par instruction capable d'analyser et de résumer les RX. Pour construire CheXagent, nous concevons un grand modèle de langage (LLM) clinique pour l'analyse des rapports radiologiques, un encodeur visuel pour représenter les images RX, et un réseau pour relier les modalités vision et langage. Enfin, nous introduisons CheXbench, un nouveau benchmark conçu pour évaluer systématiquement les FMs sur 8 tâches d'interprétation des RX cliniquement pertinentes. Des évaluations quantitatives approfondies et des revues qualitatives menées par cinq radiologues experts démontrent que CheXagent surpasse les FMs généraux et médicaux précédemment développés sur les tâches de CheXbench. Par ailleurs, dans un effort pour améliorer la transparence du modèle, nous réalisons une évaluation d'équité prenant en compte les facteurs de sexe, race et âge afin de mettre en lumière les disparités potentielles de performance. Notre projet est disponible à l'adresse suivante : https://stanford-aimi.github.io/chexagent.html.
English
Chest X-rays (CXRs) are the most frequently performed imaging test in
clinical practice. Recent advances in the development of vision-language
foundation models (FMs) give rise to the possibility of performing automated
CXR interpretation, which can assist physicians with clinical decision-making
and improve patient outcomes. However, developing FMs that can accurately
interpret CXRs is challenging due to the (1) limited availability of
large-scale vision-language datasets in the medical image domain, (2) lack of
vision and language encoders that can capture the complexities of medical data,
and (3) absence of evaluation frameworks for benchmarking the abilities of FMs
on CXR interpretation. In this work, we address these challenges by first
introducing CheXinstruct - a large-scale instruction-tuning dataset
curated from 28 publicly-available datasets. We then present CheXagent -
an instruction-tuned FM capable of analyzing and summarizing CXRs. To build
CheXagent, we design a clinical large language model (LLM) for parsing
radiology reports, a vision encoder for representing CXR images, and a network
to bridge the vision and language modalities. Finally, we introduce
CheXbench - a novel benchmark designed to systematically evaluate FMs
across 8 clinically-relevant CXR interpretation tasks. Extensive quantitative
evaluations and qualitative reviews with five expert radiologists demonstrate
that CheXagent outperforms previously-developed general- and medical-domain FMs
on CheXbench tasks. Furthermore, in an effort to improve model transparency, we
perform a fairness evaluation across factors of sex, race and age to highlight
potential performance disparities. Our project is at
https://stanford-aimi.github.io/chexagent.html.