ELIXR: Hacia un sistema de inteligencia artificial de propósito general para rayos X mediante la alineación de modelos de lenguaje extenso y codificadores visuales de radiología
ELIXR: Towards a general purpose X-ray artificial intelligence system through alignment of large language models and radiology vision encoders
August 2, 2023
Autores: Shawn Xu, Lin Yang, Christopher Kelly, Marcin Sieniek, Timo Kohlberger, Martin Ma, Wei-Hung Weng, Attila Kiraly, Sahar Kazemzadeh, Zakkai Melamed, Jungyeon Park, Patricia Strachan, Yun Liu, Chuck Lau, Preeti Singh, Christina Chen, Mozziyar Etemadi, Sreenivasa Raju Kalidindi, Yossi Matias, Katherine Chou, Greg S. Corrado, Shravya Shetty, Daniel Tse, Shruthi Prabhakara, Daniel Golden, Rory Pilgrim, Krish Eswaran, Andrew Sellergren
cs.AI
Resumen
Nuestro enfoque, al que denominamos Embeddings for Language/Image-aligned X-Rays, o ELIXR, aprovecha un codificador de imágenes alineado con lenguaje combinado o injertado en un modelo de lenguaje grande (LLM) fijo, PaLM 2, para realizar una amplia gama de tareas. Entrenamos esta arquitectura ligera de adaptador utilizando imágenes emparejadas con informes radiológicos en texto libre del conjunto de datos MIMIC-CXR. ELIXR logró un rendimiento de vanguardia en la clasificación de rayos X de tórax (CXR) sin entrenamiento previo (AUC promedio de 0.850 en 13 hallazgos), clasificación de CXR con uso eficiente de datos (AUC promedio de 0.893 y 0.898 en cinco hallazgos (atelectasia, cardiomegalia, consolidación, derrame pleural y edema pulmonar) para el 1% (~2,200 imágenes) y el 10% (~22,000 imágenes) de datos de entrenamiento), y búsqueda semántica (0.76 de ganancia acumulativa descontada normalizada (NDCG) en diecinueve consultas, incluyendo recuperación perfecta en doce de ellas). En comparación con métodos existentes de uso eficiente de datos, como el aprendizaje contrastivo supervisado (SupCon), ELIXR requirió dos órdenes de magnitud menos de datos para alcanzar un rendimiento similar. ELIXR también mostró potencial en tareas de visión y lenguaje en CXR, demostrando precisiones generales del 58.7% y 62.5% en tareas de respuesta a preguntas visuales y aseguramiento de calidad de informes, respectivamente. Estos resultados sugieren que ELIXR es un enfoque robusto y versátil para la IA en CXR.
English
Our approach, which we call Embeddings for Language/Image-aligned X-Rays, or
ELIXR, leverages a language-aligned image encoder combined or grafted onto a
fixed LLM, PaLM 2, to perform a broad range of tasks. We train this lightweight
adapter architecture using images paired with corresponding free-text radiology
reports from the MIMIC-CXR dataset. ELIXR achieved state-of-the-art performance
on zero-shot chest X-ray (CXR) classification (mean AUC of 0.850 across 13
findings), data-efficient CXR classification (mean AUCs of 0.893 and 0.898
across five findings (atelectasis, cardiomegaly, consolidation, pleural
effusion, and pulmonary edema) for 1% (~2,200 images) and 10% (~22,000 images)
training data), and semantic search (0.76 normalized discounted cumulative gain
(NDCG) across nineteen queries, including perfect retrieval on twelve of them).
Compared to existing data-efficient methods including supervised contrastive
learning (SupCon), ELIXR required two orders of magnitude less data to reach
similar performance. ELIXR also showed promise on CXR vision-language tasks,
demonstrating overall accuracies of 58.7% and 62.5% on visual question
answering and report quality assurance tasks, respectively. These results
suggest that ELIXR is a robust and versatile approach to CXR AI.