ELIXR: Создание универсальной системы искусственного интеллекта для рентгеновских снимков через согласование крупных языковых моделей и визуальных кодировщиков для радиологии
ELIXR: Towards a general purpose X-ray artificial intelligence system through alignment of large language models and radiology vision encoders
August 2, 2023
Авторы: Shawn Xu, Lin Yang, Christopher Kelly, Marcin Sieniek, Timo Kohlberger, Martin Ma, Wei-Hung Weng, Attila Kiraly, Sahar Kazemzadeh, Zakkai Melamed, Jungyeon Park, Patricia Strachan, Yun Liu, Chuck Lau, Preeti Singh, Christina Chen, Mozziyar Etemadi, Sreenivasa Raju Kalidindi, Yossi Matias, Katherine Chou, Greg S. Corrado, Shravya Shetty, Daniel Tse, Shruthi Prabhakara, Daniel Golden, Rory Pilgrim, Krish Eswaran, Andrew Sellergren
cs.AI
Аннотация
Наш подход, который мы называем Embeddings for Language/Image-aligned X-Rays (ELIXR), использует языково-ориентированный кодировщик изображений, интегрированный или привитый к фиксированной языковой модели PaLM 2, для выполнения широкого спектра задач. Мы обучаем эту легковесную архитектуру адаптера на изображениях, сопоставленных с соответствующими свободнотекстовыми радиологическими отчетами из набора данных MIMIC-CXR. ELIXR достиг наилучших результатов в задачах классификации рентгенограмм грудной клетки (CXR) без предварительного обучения (средний AUC 0.850 для 13 патологий), классификации CXR с эффективным использованием данных (средние AUC 0.893 и 0.898 для пяти патологий — ателектаз, кардиомегалия, консолидация, плевральный выпот и отек легких — при использовании 1% (~2200 изображений) и 10% (~22000 изображений) обучающих данных) и семантического поиска (NDCG 0.76 для 19 запросов, включая идеальное извлечение для 12 из них). По сравнению с существующими методами эффективного использования данных, включая обучение с контролируемым контрастированием (SupCon), ELIXR потребовал на два порядка меньше данных для достижения аналогичной производительности. ELIXR также показал перспективность в задачах, связанных с обработкой изображений и текста для CXR, продемонстрировав общую точность 58,7% и 62,5% в задачах визуального ответа на вопросы и контроля качества отчетов соответственно. Эти результаты свидетельствуют о том, что ELIXR является надежным и универсальным подходом к искусственному интеллекту для анализа рентгенограмм грудной клетки.
English
Our approach, which we call Embeddings for Language/Image-aligned X-Rays, or
ELIXR, leverages a language-aligned image encoder combined or grafted onto a
fixed LLM, PaLM 2, to perform a broad range of tasks. We train this lightweight
adapter architecture using images paired with corresponding free-text radiology
reports from the MIMIC-CXR dataset. ELIXR achieved state-of-the-art performance
on zero-shot chest X-ray (CXR) classification (mean AUC of 0.850 across 13
findings), data-efficient CXR classification (mean AUCs of 0.893 and 0.898
across five findings (atelectasis, cardiomegaly, consolidation, pleural
effusion, and pulmonary edema) for 1% (~2,200 images) and 10% (~22,000 images)
training data), and semantic search (0.76 normalized discounted cumulative gain
(NDCG) across nineteen queries, including perfect retrieval on twelve of them).
Compared to existing data-efficient methods including supervised contrastive
learning (SupCon), ELIXR required two orders of magnitude less data to reach
similar performance. ELIXR also showed promise on CXR vision-language tasks,
demonstrating overall accuracies of 58.7% and 62.5% on visual question
answering and report quality assurance tasks, respectively. These results
suggest that ELIXR is a robust and versatile approach to CXR AI.