ClinHallu: 医療MLLM推論における段階的幻覚を診断するためのベンチマーク
ClinHallu: A Benchmark for Diagnosing Stage-Wise Hallucinations in Medical MLLM Reasoning
June 12, 2026
著者: Sicheng Yang, Hangjie Yuan, Wenjun Zhang, Jinwang Wang, Yichen Qian, Weihua Chen, Fan Wang, Lei Zhu
cs.AI
要旨
信頼できる医用マルチモーダル大規模言語モデル(MLLM)の構築は、信頼性の高い臨床意思決定支援にとって極めて重要である。既存の医用幻覚ベンチマークは主にデータ収集に重点を置いているが、推論プロセス内で幻覚がどこに起因するかという点はしばしば無視されてきた。我々は、幻覚の発生源がサンプルごとに異なることを見出した。すなわち、誤りは視覚認識の誤り、不正確な医学知識の想起、あるいは推論統合の欠陥から生じ得る。このような発生源レベルの幻覚診断を可能にするため、我々は医用MLLM推論における段階別幻覚診断のためのベンチマークであるClinHalluを導入する。ClinHalluは7,031件の検証済みインスタンスを含み、各インスタンスには視覚認識、知識想起、推論統合に分解された構造化推論トレースが付与されている。また、段階置換介入(stage-replacement interventions)を用いて、特定の段階を修正することが最終回答にどのように影響するかを測定する。評価に加えて、トレース監視付きファインチューニングが段階別幻覚を軽減することを示す。ClinHalluは、医用MLLMにおける推論の失敗を診断・軽減するためのきめ細かな幻覚テストベッドを提供する。本ベンチマークはhttps://github.com/alibaba-damo-academy/ClinHalluで公開されている。
English
Building trustworthy medical multimodal large language models (MLLMs) is critical for reliable clinical decision support. Existing medical hallucination benchmarks mainly focus on data collection, but often ignore where hallucinations originate within the reasoning process. We find that hallucination sources vary across samples: errors may arise from visual misrecognition, incorrect medical knowledge recall, or flawed reasoning integration. To enable source-level hallucination diagnosis, we introduce ClinHallu, a benchmark for stage-wise hallucination diagnosis in medical MLLM reasoning. ClinHallu contains 7,031 validated instances, where each instance is augmented with a structured reasoning trace decomposed into Visual Recognition, Knowledge Recall, and Reasoning Integration. We also use stage-replacement interventions to measure how correcting specific stages affects the final answer. Beyond evaluation, we show that trace-supervised fine-tuning reduces stage-wise hallucinations. ClinHallu provides a fine-grained hallucination testbed for diagnosing and mitigating reasoning failures in medical MLLMs. The benchmark is publicly available at https://github.com/alibaba-damo-academy/ClinHallu.