ECG-Reasoning-Benchmark: Бенчмарк для оценки клинических навыков рассуждений при интерпретации ЭКГ

Аннотация

Хотя мультимодальные большие языковые модели (МБЯМ) демонстрируют обнадеживающие результаты в автоматизированной интерпретации электрокардиограмм, остается неясным, действительно ли они выполняют пошаговые рассуждения или просто полагаются на поверхностные визуальные паттерны. Для изучения этого вопроса мы представляем ECG-Reasoning-Benchmark — новую многозадачную оценочную систему, содержащую более 6400 образцов для систематической оценки пошаговых рассуждений по 17 ключевым ЭКГ-диагнозам. Наше комплексное тестирование современных моделей выявляет критический провал в выполнении многошагового логического вывода. Хотя модели обладают медицинскими знаниями для извлечения клинических критериев диагноза, они демонстрируют почти нулевой процент успеха (6% Completion) в поддержании полной цепочки рассуждений, в основном неспособные привязать соответствующие ЭКГ-находки к фактическим визуальным признакам в сигнале ЭКГ. Эти результаты доказывают, что современные МБЯМ обходят действительную визуальную интерпретацию, обнажая фундаментальный недостаток существующих подходов к обучению и подчеркивая необходимость создания надежного медицинского ИИ, ориентированного на логические рассуждения. Код и данные доступны по адресу https://github.com/Jwoo5/ecg-reasoning-benchmark.

English

While Multimodal Large Language Models (MLLMs) show promising performance in automated electrocardiogram interpretation, it remains unclear whether they genuinely perform actual step-by-step reasoning or just rely on superficial visual cues. To investigate this, we introduce ECG-Reasoning-Benchmark, a novel multi-turn evaluation framework comprising over 6,400 samples to systematically assess step-by-step reasoning across 17 core ECG diagnoses. Our comprehensive evaluation of state-of-the-art models reveals a critical failure in executing multi-step logical deduction. Although models possess the medical knowledge to retrieve clinical criteria for a diagnosis, they exhibit near-zero success rates (6% Completion) in maintaining a complete reasoning chain, primarily failing to ground the corresponding ECG findings to the actual visual evidence in the ECG signal. These results demonstrate that current MLLMs bypass actual visual interpretation, exposing a critical flaw in existing training paradigms and underscoring the necessity for robust, reasoning-centric medical AI. The code and data are available at https://github.com/Jwoo5/ecg-reasoning-benchmark.

ECG-Reasoning-Benchmark: Бенчмарк для оценки клинических навыков рассуждений при интерпретации ЭКГ

ECG-Reasoning-Benchmark: A Benchmark for Evaluating Clinical Reasoning Capabilities in ECG Interpretation

Аннотация

Support