CheXagent: Hacia un Modelo Fundacional para la Interpretación de Radiografías de Tórax
CheXagent: Towards a Foundation Model for Chest X-Ray Interpretation
January 22, 2024
Autores: Zhihong Chen, Maya Varma, Jean-Benoit Delbrouck, Magdalini Paschali, Louis Blankemeier, Dave Van Veen, Jeya Maria Jose Valanarasu, Alaa Youssef, Joseph Paul Cohen, Eduardo Pontes Reis, Emily B. Tsai, Andrew Johnston, Cameron Olsen, Tanishq Mathew Abraham, Sergios Gatidis, Akshay S. Chaudhari, Curtis Langlotz
cs.AI
Resumen
Las radiografías de tórax (CXR, por sus siglas en inglés) son la prueba de imagen más frecuentemente realizada en la práctica clínica. Los recientes avances en el desarrollo de modelos fundamentales de visión y lenguaje (FMs, por sus siglas en inglés) abren la posibilidad de realizar una interpretación automatizada de las CXR, lo que puede asistir a los médicos en la toma de decisiones clínicas y mejorar los resultados de los pacientes. Sin embargo, desarrollar FMs que puedan interpretar con precisión las CXR es un desafío debido a (1) la disponibilidad limitada de conjuntos de datos a gran escala de visión y lenguaje en el dominio de imágenes médicas, (2) la falta de codificadores de visión y lenguaje que puedan capturar las complejidades de los datos médicos, y (3) la ausencia de marcos de evaluación para comparar las capacidades de los FMs en la interpretación de CXR. En este trabajo, abordamos estos desafíos introduciendo primero CheXinstruct, un conjunto de datos de ajuste por instrucciones a gran escala curado a partir de 28 conjuntos de datos disponibles públicamente. Luego presentamos CheXagent, un FM ajustado por instrucciones capaz de analizar y resumir CXR. Para construir CheXagent, diseñamos un modelo de lenguaje grande (LLM, por sus siglas en inglés) clínico para analizar informes radiológicos, un codificador de visión para representar imágenes de CXR y una red para conectar las modalidades de visión y lenguaje. Finalmente, introducimos CheXbench, un nuevo punto de referencia diseñado para evaluar sistemáticamente los FMs en 8 tareas clínicamente relevantes de interpretación de CXR. Evaluaciones cuantitativas exhaustivas y revisiones cualitativas con cinco radiólogos expertos demuestran que CheXagent supera a los FMs previamente desarrollados tanto en el dominio general como en el médico en las tareas de CheXbench. Además, en un esfuerzo por mejorar la transparencia del modelo, realizamos una evaluación de equidad en factores de sexo, raza y edad para resaltar posibles disparidades en el rendimiento. Nuestro proyecto se encuentra en https://stanford-aimi.github.io/chexagent.html.
English
Chest X-rays (CXRs) are the most frequently performed imaging test in
clinical practice. Recent advances in the development of vision-language
foundation models (FMs) give rise to the possibility of performing automated
CXR interpretation, which can assist physicians with clinical decision-making
and improve patient outcomes. However, developing FMs that can accurately
interpret CXRs is challenging due to the (1) limited availability of
large-scale vision-language datasets in the medical image domain, (2) lack of
vision and language encoders that can capture the complexities of medical data,
and (3) absence of evaluation frameworks for benchmarking the abilities of FMs
on CXR interpretation. In this work, we address these challenges by first
introducing CheXinstruct - a large-scale instruction-tuning dataset
curated from 28 publicly-available datasets. We then present CheXagent -
an instruction-tuned FM capable of analyzing and summarizing CXRs. To build
CheXagent, we design a clinical large language model (LLM) for parsing
radiology reports, a vision encoder for representing CXR images, and a network
to bridge the vision and language modalities. Finally, we introduce
CheXbench - a novel benchmark designed to systematically evaluate FMs
across 8 clinically-relevant CXR interpretation tasks. Extensive quantitative
evaluations and qualitative reviews with five expert radiologists demonstrate
that CheXagent outperforms previously-developed general- and medical-domain FMs
on CheXbench tasks. Furthermore, in an effort to improve model transparency, we
perform a fairness evaluation across factors of sex, race and age to highlight
potential performance disparities. Our project is at
https://stanford-aimi.github.io/chexagent.html.