CCD: Снижение галлюцинаций в радиологических MLLM с помощью клинического контрастного декодирования
CCD: Mitigating Hallucinations in Radiology MLLMs via Clinical Contrastive Decoding
September 27, 2025
Авторы: Xi Zhang, Zaiqiao Meng, Jake Lever, Edmond S. L. Ho
cs.AI
Аннотация
Мультимодальные большие языковые модели (MLLM) недавно достигли значительного прогресса в радиологии, объединяя визуальное восприятие с пониманием естественного языка. Однако они часто генерируют клинически неподтвержденные описания, известные как медицинские галлюцинации, которые представляют серьезные риски в медицинских приложениях, требующих точности и выводов, основанных на изображениях. Эмпирический анализ показывает, что галлюцинации, вызванные промптами, остаются распространенными в радиологических MLLM, в основном из-за чрезмерной чувствительности к клиническим разделам. Для решения этой проблемы мы представляем Clinical Contrastive Decoding (CCD) — легковесный и не требующий обучения или поиска фреймворк для вывода, который интегрирует структурированные клинические сигналы от экспертных моделей, специфичных для задач радиологии. CCD вводит двухэтапный контрастный механизм для уточнения логарифмических вероятностей на уровне токенов в процессе генерации, тем самым повышая клиническую достоверность без изменения базовой MLLM. Эксперименты на трех наборах данных и нескольких моделях демонстрируют, что CCD последовательно улучшает общую производительность в задаче генерации радиологических отчетов (RRG). На наборе данных MIMIC-CXR он обеспечивает улучшение до 17% по метрике RadGraph-F1 при применении к современным моделям RRG. Наш подход предлагает легковесное и универсальное решение для снижения медицинских галлюцинаций, эффективно объединяя экспертные модели и MLLM в радиологии.
English
Multimodal large language models (MLLMs) have recently achieved remarkable
progress in radiology by integrating visual perception with natural language
understanding. However, they often generate clinically unsupported
descriptions, known as medical hallucinations, which pose serious risks in
medical applications that demand accuracy and image-grounded outputs. Through
empirical analysis, we find that prompt-induced hallucinations remain prevalent
in radiology MLLMs, largely due to over-sensitivity to clinical sections. To
address this, we introduce Clinical Contrastive Cecoding (CCD), a training-free
and retrieval-free inference framework that integrates structured clinical
signals from task-specific radiology expert models. CCD introduces a dual-stage
contrastive mechanism to refine token-level logits during generation, thereby
enhancing clinical fidelity without modifying the base MLLM. Experiments on
three datasets and multiple models demonstrate that CCD consistently improves
overall performance on radiology report generation (RRG). On the MIMIC-CXR
dataset, it yields up to a 17% improvement in RadGraph-F1 when applied to
state-of-the-art RRG models. Our approach provides a lightweight and
generalisable solution for mitigating medical hallucinations, effectively
bridging expert models and MLLMs in radiology.