ClinHallu: Бенчмарк для диагностики поэтапных галлюцинаций в рассуждениях медицинских MLLM

Аннотация

Создание надежных медицинских мультимодальных больших языковых моделей (ММБЯМ) имеет решающее значение для достоверной поддержки клинических решений. Существующие бенчмарки медицинских галлюцинаций в основном сосредоточены на сборе данных, но часто игнорируют то, где в процессе рассуждения возникают галлюцинации. Мы обнаружили, что источники галлюцинаций варьируются в зависимости от примеров: ошибки могут возникать из-за неправильного визуального распознавания, некорректного вспоминания медицинских знаний или ошибочной интеграции рассуждений. Для диагностики галлюцинаций на уровне источника мы представляем ClinHallu — бенчмарк для поэтапной диагностики галлюцинаций в процессе рассуждения медицинских ММБЯМ. ClinHallu содержит 7 031 валидированный экземпляр, каждый из которых дополнен структурированным следом рассуждений, разбитым на этапы: визуальное распознавание, вспоминание знаний и интеграция рассуждений. Мы также используем вмешательства с заменой этапов, чтобы измерить, как исправление конкретных этапов влияет на итоговый ответ. Помимо оценки, мы показываем, что точная настройка с использованием следов рассуждений уменьшает поэтапные галлюцинации. ClinHallu предоставляет тонкозернистую тестовую среду для диагностики и смягчения ошибок рассуждений в медицинских ММБЯМ. Бенчмарк доступен по адресу https://github.com/alibaba-damo-academy/ClinHallu.

English

Building trustworthy medical multimodal large language models (MLLMs) is critical for reliable clinical decision support. Existing medical hallucination benchmarks mainly focus on data collection, but often ignore where hallucinations originate within the reasoning process. We find that hallucination sources vary across samples: errors may arise from visual misrecognition, incorrect medical knowledge recall, or flawed reasoning integration. To enable source-level hallucination diagnosis, we introduce ClinHallu, a benchmark for stage-wise hallucination diagnosis in medical MLLM reasoning. ClinHallu contains 7,031 validated instances, where each instance is augmented with a structured reasoning trace decomposed into Visual Recognition, Knowledge Recall, and Reasoning Integration. We also use stage-replacement interventions to measure how correcting specific stages affects the final answer. Beyond evaluation, we show that trace-supervised fine-tuning reduces stage-wise hallucinations. ClinHallu provides a fine-grained hallucination testbed for diagnosing and mitigating reasoning failures in medical MLLMs. The benchmark is publicly available at https://github.com/alibaba-damo-academy/ClinHallu.