ELIXR: Rumo a um sistema de inteligência artificial de propósito geral para raios-X através do alinhamento de grandes modelos de linguagem e codificadores visuais de radiologia

Resumo

Nossa abordagem, que chamamos de Embeddings for Language/Image-aligned X-Rays, ou ELIXR, utiliza um codificador de imagens alinhado com linguagem combinado ou enxertado em um LLM fixo, o PaLM 2, para realizar uma ampla gama de tarefas. Treinamos essa arquitetura leve de adaptador usando imagens pareadas com relatórios radiológicos em texto livre do conjunto de dados MIMIC-CXR. O ELIXR alcançou desempenho de ponta em classificação zero-shot de radiografias de tórax (CXR) (média de AUC de 0,850 em 13 achados), classificação de CXR com uso eficiente de dados (médias de AUC de 0,893 e 0,898 em cinco achados (atelectasia, cardiomegalia, consolidação, derrame pleural e edema pulmonar) para 1% (~2.200 imagens) e 10% (~22.000 imagens) de dados de treinamento) e busca semântica (0,76 de ganho cumulativo descontado normalizado (NDCG) em dezenove consultas, incluindo recuperação perfeita em doze delas). Em comparação com métodos existentes de uso eficiente de dados, incluindo aprendizado contrastivo supervisionado (SupCon), o ELIXR exigiu duas ordens de magnitude a menos de dados para atingir desempenho similar. O ELIXR também mostrou potencial em tarefas de visão e linguagem em CXR, demonstrando acurácias gerais de 58,7% e 62,5% em tarefas de resposta a perguntas visuais e garantia de qualidade de relatórios, respectivamente. Esses resultados sugerem que o ELIXR é uma abordagem robusta e versátil para IA em CXR.

English

Our approach, which we call Embeddings for Language/Image-aligned X-Rays, or ELIXR, leverages a language-aligned image encoder combined or grafted onto a fixed LLM, PaLM 2, to perform a broad range of tasks. We train this lightweight adapter architecture using images paired with corresponding free-text radiology reports from the MIMIC-CXR dataset. ELIXR achieved state-of-the-art performance on zero-shot chest X-ray (CXR) classification (mean AUC of 0.850 across 13 findings), data-efficient CXR classification (mean AUCs of 0.893 and 0.898 across five findings (atelectasis, cardiomegaly, consolidation, pleural effusion, and pulmonary edema) for 1% (~2,200 images) and 10% (~22,000 images) training data), and semantic search (0.76 normalized discounted cumulative gain (NDCG) across nineteen queries, including perfect retrieval on twelve of them). Compared to existing data-efficient methods including supervised contrastive learning (SupCon), ELIXR required two orders of magnitude less data to reach similar performance. ELIXR also showed promise on CXR vision-language tasks, demonstrating overall accuracies of 58.7% and 62.5% on visual question answering and report quality assurance tasks, respectively. These results suggest that ELIXR is a robust and versatile approach to CXR AI.

ELIXR: Rumo a um sistema de inteligência artificial de propósito geral para raios-X através do alinhamento de grandes modelos de linguagem e codificadores visuais de radiologia

ELIXR: Towards a general purpose X-ray artificial intelligence system through alignment of large language models and radiology vision encoders

Resumo

Support