ChatPaper.aiChatPaper

Ensine LLMs Multimodais a Compreender Imagens Eletrocardiográficas

Teach Multimodal LLMs to Comprehend Electrocardiographic Images

October 21, 2024
Autores: Ruoqi Liu, Yuelin Bai, Xiang Yue, Ping Zhang
cs.AI

Resumo

O eletrocardiograma (ECG) é uma ferramenta diagnóstica essencial e não invasiva para avaliar condições cardíacas. Os métodos automáticos de interpretação existentes sofrem de generalização limitada, focando em uma gama estreita de condições cardíacas e geralmente dependem de sinais fisiológicos brutos, que podem não estar prontamente disponíveis em ambientes com recursos limitados, onde apenas imagens de ECG impressas ou digitais são acessíveis. Avanços recentes em modelos de linguagem multimodais grandes (MLLMs) apresentam oportunidades promissoras para lidar com esses desafios. No entanto, a aplicação de MLLMs na interpretação de imagens de ECG ainda é desafiadora devido à falta de conjuntos de dados de ajuste de instruções e benchmarks de imagens de ECG bem estabelecidos para avaliação quantitativa. Para enfrentar esses desafios, apresentamos o ECGInstruct, um conjunto de dados abrangente de ajuste de instruções de imagens de ECG com mais de um milhão de amostras, abrangendo uma ampla gama de tarefas relacionadas ao ECG de diversas fontes de dados. Usando o ECGInstruct, desenvolvemos o PULSE, um MLLM adaptado para compreensão de imagens de ECG. Além disso, criamos o ECGBench, um novo benchmark de avaliação que abrange quatro tarefas-chave de interpretação de imagens de ECG em nove conjuntos de dados diferentes. Nossos experimentos mostram que o PULSE estabelece um novo estado-da-arte, superando MLLMs gerais com um aumento médio de precisão de 15% a 30%. Este trabalho destaca o potencial do PULSE para aprimorar a interpretação de ECG na prática clínica.
English
The electrocardiogram (ECG) is an essential non-invasive diagnostic tool for assessing cardiac conditions. Existing automatic interpretation methods suffer from limited generalizability, focusing on a narrow range of cardiac conditions, and typically depend on raw physiological signals, which may not be readily available in resource-limited settings where only printed or digital ECG images are accessible. Recent advancements in multimodal large language models (MLLMs) present promising opportunities for addressing these challenges. However, the application of MLLMs to ECG image interpretation remains challenging due to the lack of instruction tuning datasets and well-established ECG image benchmarks for quantitative evaluation. To address these challenges, we introduce ECGInstruct, a comprehensive ECG image instruction tuning dataset of over one million samples, covering a wide range of ECG-related tasks from diverse data sources. Using ECGInstruct, we develop PULSE, an MLLM tailored for ECG image comprehension. In addition, we curate ECGBench, a new evaluation benchmark covering four key ECG image interpretation tasks across nine different datasets. Our experiments show that PULSE sets a new state-of-the-art, outperforming general MLLMs with an average accuracy improvement of 15% to 30%. This work highlights the potential of PULSE to enhance ECG interpretation in clinical practice.

Summary

AI-Generated Summary

PDF242November 16, 2024