CCD: Mitigazione delle Allucinazioni nei MLLM Radiologici tramite Decodifica Clinica Contrastiva
CCD: Mitigating Hallucinations in Radiology MLLMs via Clinical Contrastive Decoding
September 27, 2025
Autori: Xi Zhang, Zaiqiao Meng, Jake Lever, Edmond S. L. Ho
cs.AI
Abstract
I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno recentemente compiuto progressi significativi in radiologia, integrando la percezione visiva con la comprensione del linguaggio naturale. Tuttavia, spesso generano descrizioni clinicamente non supportate, note come allucinazioni mediche, che rappresentano seri rischi nelle applicazioni mediche che richiedono precisione e risultati basati sulle immagini. Attraverso un'analisi empirica, abbiamo riscontrato che le allucinazioni indotte dai prompt rimangono prevalenti nei MLLM radiologici, principalmente a causa di un'eccessiva sensibilità alle sezioni cliniche. Per affrontare questo problema, introduciamo il Clinical Contrastive Decoding (CCD), un framework di inferenza senza addestramento e senza recupero che integra segnali clinici strutturati da modelli esperti specifici per la radiologia. CCD introduce un meccanismo contrastivo a due stadi per affinare i logit a livello di token durante la generazione, migliorando così la fedeltà clinica senza modificare il modello MLLM di base. Esperimenti su tre dataset e su più modelli dimostrano che CCD migliora costantemente le prestazioni complessive nella generazione di referti radiologici (RRG). Sul dataset MIMIC-CXR, si ottiene un miglioramento fino al 17% in RadGraph-F1 quando applicato ai modelli RRG all'avanguardia. Il nostro approccio fornisce una soluzione leggera e generalizzabile per mitigare le allucinazioni mediche, colmando efficacemente il divario tra i modelli esperti e i MLLM in radiologia.
English
Multimodal large language models (MLLMs) have recently achieved remarkable
progress in radiology by integrating visual perception with natural language
understanding. However, they often generate clinically unsupported
descriptions, known as medical hallucinations, which pose serious risks in
medical applications that demand accuracy and image-grounded outputs. Through
empirical analysis, we find that prompt-induced hallucinations remain prevalent
in radiology MLLMs, largely due to over-sensitivity to clinical sections. To
address this, we introduce Clinical Contrastive Cecoding (CCD), a training-free
and retrieval-free inference framework that integrates structured clinical
signals from task-specific radiology expert models. CCD introduces a dual-stage
contrastive mechanism to refine token-level logits during generation, thereby
enhancing clinical fidelity without modifying the base MLLM. Experiments on
three datasets and multiple models demonstrate that CCD consistently improves
overall performance on radiology report generation (RRG). On the MIMIC-CXR
dataset, it yields up to a 17% improvement in RadGraph-F1 when applied to
state-of-the-art RRG models. Our approach provides a lightweight and
generalisable solution for mitigating medical hallucinations, effectively
bridging expert models and MLLMs in radiology.