CCD: 임상적 대조 디코딩을 통한 방사선학 MLLM의 환각 현상 완화
CCD: Mitigating Hallucinations in Radiology MLLMs via Clinical Contrastive Decoding
September 27, 2025
저자: Xi Zhang, Zaiqiao Meng, Jake Lever, Edmond S. L. Ho
cs.AI
초록
최근 멀티모달 대형 언어 모델(MLLM)은 시각적 인식과 자연어 이해를 통합함으로써 방사선학 분야에서 주목할 만한 진전을 이루었습니다. 그러나 이러한 모델들은 종종 임상적으로 입증되지 않은 설명, 즉 의학적 환각(medical hallucinations)을 생성하는데, 이는 정확성과 영상 기반 출력을 요구하는 의료 응용 분야에서 심각한 위험을 초래합니다. 실증적 분석을 통해, 우리는 프롬프트 유도 환각이 방사선학 MLLM에서 여전히 만연하며, 이는 주로 임상 섹션에 대한 과도한 민감성 때문이라는 사실을 발견했습니다. 이를 해결하기 위해, 우리는 구조화된 임상 신호를 작업별 방사선학 전문가 모델에서 통합하는 학습 없고 검색 없는 추론 프레임워크인 임상 대조 코딩(Clinical Contrastive Coding, CCD)을 제안합니다. CCD는 생성 과정에서 토큰 수준의 로짓(logits)을 개선하기 위한 이중 단계 대조 메커니즘을 도입함으로써, 기본 MLLM을 수정하지 않고도 임상적 충실도를 향상시킵니다. 세 가지 데이터셋과 여러 모델에 대한 실험 결과, CCD는 방사선학 보고서 생성(RRG)에서 전반적인 성능을 꾸준히 개선하는 것으로 나타났습니다. MIMIC-CXR 데이터셋에서, 최첨단 RRG 모델에 CCD를 적용했을 때 RadGraph-F1 점수가 최대 17% 향상되었습니다. 우리의 접근 방식은 의학적 환각을 완화하기 위한 가볍고 일반화 가능한 솔루션을 제공함으로써, 방사선학 분야에서 전문가 모델과 MLLM을 효과적으로 연결합니다.
English
Multimodal large language models (MLLMs) have recently achieved remarkable
progress in radiology by integrating visual perception with natural language
understanding. However, they often generate clinically unsupported
descriptions, known as medical hallucinations, which pose serious risks in
medical applications that demand accuracy and image-grounded outputs. Through
empirical analysis, we find that prompt-induced hallucinations remain prevalent
in radiology MLLMs, largely due to over-sensitivity to clinical sections. To
address this, we introduce Clinical Contrastive Cecoding (CCD), a training-free
and retrieval-free inference framework that integrates structured clinical
signals from task-specific radiology expert models. CCD introduces a dual-stage
contrastive mechanism to refine token-level logits during generation, thereby
enhancing clinical fidelity without modifying the base MLLM. Experiments on
three datasets and multiple models demonstrate that CCD consistently improves
overall performance on radiology report generation (RRG). On the MIMIC-CXR
dataset, it yields up to a 17% improvement in RadGraph-F1 when applied to
state-of-the-art RRG models. Our approach provides a lightweight and
generalisable solution for mitigating medical hallucinations, effectively
bridging expert models and MLLMs in radiology.