CCD: Mitigación de Alucinaciones en MLLMs de Radiología mediante Decodificación Clínica Contrastiva
CCD: Mitigating Hallucinations in Radiology MLLMs via Clinical Contrastive Decoding
September 27, 2025
Autores: Xi Zhang, Zaiqiao Meng, Jake Lever, Edmond S. L. Ho
cs.AI
Resumen
Los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) han logrado recientemente avances notables en radiología al integrar la percepción visual con la comprensión del lenguaje natural. Sin embargo, a menudo generan descripciones clínicamente no respaldadas, conocidas como alucinaciones médicas, lo que representa riesgos graves en aplicaciones médicas que exigen precisión y resultados fundamentados en imágenes. A través de un análisis empírico, encontramos que las alucinaciones inducidas por instrucciones siguen siendo prevalentes en los MLLMs de radiología, en gran parte debido a una sobresensibilidad a las secciones clínicas. Para abordar este problema, presentamos Clinical Contrastive Decoding (CCD), un marco de inferencia sin entrenamiento y sin recuperación que integra señales clínicas estructuradas de modelos expertos en radiología específicos para la tarea. CCD introduce un mecanismo de contraste de dos etapas para refinar los logits a nivel de token durante la generación, mejorando así la fidelidad clínica sin modificar el MLLM base. Los experimentos en tres conjuntos de datos y múltiples modelos demuestran que CCD mejora consistentemente el rendimiento general en la generación de informes radiológicos (RRG, por sus siglas en inglés). En el conjunto de datos MIMIC-CXR, se obtiene una mejora de hasta un 17% en RadGraph-F1 cuando se aplica a modelos RRG de vanguardia. Nuestro enfoque proporciona una solución ligera y generalizable para mitigar las alucinaciones médicas, conectando eficazmente los modelos expertos y los MLLMs en radiología.
English
Multimodal large language models (MLLMs) have recently achieved remarkable
progress in radiology by integrating visual perception with natural language
understanding. However, they often generate clinically unsupported
descriptions, known as medical hallucinations, which pose serious risks in
medical applications that demand accuracy and image-grounded outputs. Through
empirical analysis, we find that prompt-induced hallucinations remain prevalent
in radiology MLLMs, largely due to over-sensitivity to clinical sections. To
address this, we introduce Clinical Contrastive Cecoding (CCD), a training-free
and retrieval-free inference framework that integrates structured clinical
signals from task-specific radiology expert models. CCD introduces a dual-stage
contrastive mechanism to refine token-level logits during generation, thereby
enhancing clinical fidelity without modifying the base MLLM. Experiments on
three datasets and multiple models demonstrate that CCD consistently improves
overall performance on radiology report generation (RRG). On the MIMIC-CXR
dataset, it yields up to a 17% improvement in RadGraph-F1 when applied to
state-of-the-art RRG models. Our approach provides a lightweight and
generalisable solution for mitigating medical hallucinations, effectively
bridging expert models and MLLMs in radiology.