CheXagent: Rumo a um Modelo Fundamental para Interpretação de Radiografias Torácicas
CheXagent: Towards a Foundation Model for Chest X-Ray Interpretation
January 22, 2024
Autores: Zhihong Chen, Maya Varma, Jean-Benoit Delbrouck, Magdalini Paschali, Louis Blankemeier, Dave Van Veen, Jeya Maria Jose Valanarasu, Alaa Youssef, Joseph Paul Cohen, Eduardo Pontes Reis, Emily B. Tsai, Andrew Johnston, Cameron Olsen, Tanishq Mathew Abraham, Sergios Gatidis, Akshay S. Chaudhari, Curtis Langlotz
cs.AI
Resumo
Radiografias de tórax (CXRs) são o exame de imagem mais frequentemente realizado na prática clínica. Avanços recentes no desenvolvimento de modelos de base (FMs) de visão e linguagem abrem a possibilidade de realizar interpretação automatizada de CXRs, o que pode auxiliar médicos na tomada de decisões clínicas e melhorar os resultados dos pacientes. No entanto, desenvolver FMs capazes de interpretar CXRs com precisão é desafiador devido (1) à disponibilidade limitada de conjuntos de dados em larga escala de visão e linguagem no domínio de imagens médicas, (2) à falta de codificadores de visão e linguagem que possam capturar as complexidades dos dados médicos, e (3) à ausência de frameworks de avaliação para comparar as habilidades dos FMs na interpretação de CXRs. Neste trabalho, abordamos esses desafios primeiro introduzindo o CheXinstruct - um conjunto de dados de ajuste fino de instruções em larga escala, curado a partir de 28 conjuntos de dados publicamente disponíveis. Em seguida, apresentamos o CheXagent - um FM ajustado por instruções capaz de analisar e resumir CXRs. Para construir o CheXagent, projetamos um modelo de linguagem de grande escala (LLM) clínico para analisar relatórios de radiologia, um codificador de visão para representar imagens de CXR e uma rede para conectar as modalidades de visão e linguagem. Por fim, introduzimos o CheXbench - um novo benchmark projetado para avaliar sistematicamente FMs em 8 tarefas clinicamente relevantes de interpretação de CXRs. Avaliações quantitativas extensas e revisões qualitativas com cinco radiologistas especialistas demonstram que o CheXagent supera FMs desenvolvidos anteriormente, tanto de domínio geral quanto médico, nas tarefas do CheXbench. Além disso, em um esforço para melhorar a transparência do modelo, realizamos uma avaliação de justiça em fatores de sexo, raça e idade para destacar possíveis disparidades de desempenho. Nosso projeto está disponível em https://stanford-aimi.github.io/chexagent.html.
English
Chest X-rays (CXRs) are the most frequently performed imaging test in
clinical practice. Recent advances in the development of vision-language
foundation models (FMs) give rise to the possibility of performing automated
CXR interpretation, which can assist physicians with clinical decision-making
and improve patient outcomes. However, developing FMs that can accurately
interpret CXRs is challenging due to the (1) limited availability of
large-scale vision-language datasets in the medical image domain, (2) lack of
vision and language encoders that can capture the complexities of medical data,
and (3) absence of evaluation frameworks for benchmarking the abilities of FMs
on CXR interpretation. In this work, we address these challenges by first
introducing CheXinstruct - a large-scale instruction-tuning dataset
curated from 28 publicly-available datasets. We then present CheXagent -
an instruction-tuned FM capable of analyzing and summarizing CXRs. To build
CheXagent, we design a clinical large language model (LLM) for parsing
radiology reports, a vision encoder for representing CXR images, and a network
to bridge the vision and language modalities. Finally, we introduce
CheXbench - a novel benchmark designed to systematically evaluate FMs
across 8 clinically-relevant CXR interpretation tasks. Extensive quantitative
evaluations and qualitative reviews with five expert radiologists demonstrate
that CheXagent outperforms previously-developed general- and medical-domain FMs
on CheXbench tasks. Furthermore, in an effort to improve model transparency, we
perform a fairness evaluation across factors of sex, race and age to highlight
potential performance disparities. Our project is at
https://stanford-aimi.github.io/chexagent.html.