ClinHallu: Ein Benchmark zur Diagnose stufenweiser Halluzinationen im medizinischen MLLM-Schlussfolgern

Zusammenfassung

Der Aufbau vertrauenswürdiger medizinischer multimodaler großer Sprachmodelle (MLLMs) ist entscheidend für eine zuverlässige klinische Entscheidungsunterstützung. Bestehende medizinische Halluzinations-Benchmarks konzentrieren sich hauptsächlich auf die Datenerhebung, ignorieren jedoch häufig die Ursprünge von Halluzinationen innerhalb des Denkprozesses. Wir stellen fest, dass Halluzinationsquellen je nach Probe variieren: Fehler können aus visueller Fehlerkennung, falschem medizinischen Wissensabruf oder fehlerhafter Denkintegration resultieren. Um eine Quellenebenen-Halluzinationsdiagnose zu ermöglichen, führen wir ClinHallu ein, einen Benchmark zur stufenweisen Halluzinationsdiagnose im Denkprozess medizinischer MLLMs. ClinHallu enthält 7.031 validierte Instanzen, wobei jede Instanz um einen strukturierten Denkpfad erweitert ist, der in visuelle Erkennung, Wissensabruf und Denkintegration unterteilt ist. Wir verwenden zudem Stufenaustauschinterventionen, um zu messen, wie die Korrektur bestimmter Stufen die endgültige Antwort beeinflusst. Über die Evaluierung hinaus zeigen wir, dass pfadüberwachtes Feintuning stufenweise Halluzinationen reduziert. ClinHallu bietet eine feinkörnige Halluzinations-Testumgebung zur Diagnose und Abschwächung von Denkfehlern in medizinischen MLLMs. Der Benchmark ist öffentlich verfügbar unter https://github.com/alibaba-damo-academy/ClinHallu.

English

Building trustworthy medical multimodal large language models (MLLMs) is critical for reliable clinical decision support. Existing medical hallucination benchmarks mainly focus on data collection, but often ignore where hallucinations originate within the reasoning process. We find that hallucination sources vary across samples: errors may arise from visual misrecognition, incorrect medical knowledge recall, or flawed reasoning integration. To enable source-level hallucination diagnosis, we introduce ClinHallu, a benchmark for stage-wise hallucination diagnosis in medical MLLM reasoning. ClinHallu contains 7,031 validated instances, where each instance is augmented with a structured reasoning trace decomposed into Visual Recognition, Knowledge Recall, and Reasoning Integration. We also use stage-replacement interventions to measure how correcting specific stages affects the final answer. Beyond evaluation, we show that trace-supervised fine-tuning reduces stage-wise hallucinations. ClinHallu provides a fine-grained hallucination testbed for diagnosing and mitigating reasoning failures in medical MLLMs. The benchmark is publicly available at https://github.com/alibaba-damo-academy/ClinHallu.