CheXagent: На пути к фундаментальной модели для интерпретации рентгенограмм грудной клетки
CheXagent: Towards a Foundation Model for Chest X-Ray Interpretation
January 22, 2024
Авторы: Zhihong Chen, Maya Varma, Jean-Benoit Delbrouck, Magdalini Paschali, Louis Blankemeier, Dave Van Veen, Jeya Maria Jose Valanarasu, Alaa Youssef, Joseph Paul Cohen, Eduardo Pontes Reis, Emily B. Tsai, Andrew Johnston, Cameron Olsen, Tanishq Mathew Abraham, Sergios Gatidis, Akshay S. Chaudhari, Curtis Langlotz
cs.AI
Аннотация
Рентгенография органов грудной клетки (РГК) является наиболее часто выполняемым визуализирующим исследованием в клинической практике. Последние достижения в разработке базовых моделей, объединяющих зрение и язык (vision-language foundation models, FMs), открывают возможность автоматизированной интерпретации РГК, что может помочь врачам в принятии клинических решений и улучшить результаты лечения пациентов. Однако разработка FMs, способных точно интерпретировать РГК, сопряжена с рядом трудностей, включая (1) ограниченную доступность крупномасштабных наборов данных, объединяющих зрение и язык, в области медицинских изображений, (2) отсутствие кодировщиков зрения и языка, способных учитывать сложность медицинских данных, и (3) отсутствие систем оценки для тестирования возможностей FMs в интерпретации РГК. В данной работе мы решаем эти проблемы, сначала представляя CheXinstruct — крупномасштабный набор данных для настройки по инструкциям, созданный на основе 28 общедоступных наборов данных. Затем мы представляем CheXagent — FM, настроенную на выполнение инструкций и способную анализировать и резюмировать РГК. Для создания CheXagent мы разработали клиническую большую языковую модель (LLM) для анализа радиологических отчетов, кодировщик зрения для представления изображений РГК и сеть, объединяющую модальности зрения и языка. Наконец, мы представляем CheXbench — новый эталонный тест, предназначенный для систематической оценки FMs по 8 клинически значимым задачам интерпретации РГК. Обширные количественные оценки и качественный анализ с участием пяти экспертов-радиологов демонстрируют, что CheXagent превосходит ранее разработанные FMs общего и медицинского назначения в задачах CheXbench. Кроме того, в целях повышения прозрачности модели, мы проводим оценку справедливости по факторам пола, расы и возраста, чтобы выявить потенциальные различия в производительности. Наш проект доступен по адресу: https://stanford-aimi.github.io/chexagent.html.
English
Chest X-rays (CXRs) are the most frequently performed imaging test in
clinical practice. Recent advances in the development of vision-language
foundation models (FMs) give rise to the possibility of performing automated
CXR interpretation, which can assist physicians with clinical decision-making
and improve patient outcomes. However, developing FMs that can accurately
interpret CXRs is challenging due to the (1) limited availability of
large-scale vision-language datasets in the medical image domain, (2) lack of
vision and language encoders that can capture the complexities of medical data,
and (3) absence of evaluation frameworks for benchmarking the abilities of FMs
on CXR interpretation. In this work, we address these challenges by first
introducing CheXinstruct - a large-scale instruction-tuning dataset
curated from 28 publicly-available datasets. We then present CheXagent -
an instruction-tuned FM capable of analyzing and summarizing CXRs. To build
CheXagent, we design a clinical large language model (LLM) for parsing
radiology reports, a vision encoder for representing CXR images, and a network
to bridge the vision and language modalities. Finally, we introduce
CheXbench - a novel benchmark designed to systematically evaluate FMs
across 8 clinically-relevant CXR interpretation tasks. Extensive quantitative
evaluations and qualitative reviews with five expert radiologists demonstrate
that CheXagent outperforms previously-developed general- and medical-domain FMs
on CheXbench tasks. Furthermore, in an effort to improve model transparency, we
perform a fairness evaluation across factors of sex, race and age to highlight
potential performance disparities. Our project is at
https://stanford-aimi.github.io/chexagent.html.