CCD: Mitigando Alucinações em MLLMs de Radiologia por meio de Decodificação Clínica Contrastiva
CCD: Mitigating Hallucinations in Radiology MLLMs via Clinical Contrastive Decoding
September 27, 2025
Autores: Xi Zhang, Zaiqiao Meng, Jake Lever, Edmond S. L. Ho
cs.AI
Resumo
Modelos de linguagem multimodal de grande escala (MLLMs) têm alcançado recentemente progressos notáveis em radiologia ao integrar percepção visual com compreensão de linguagem natural. No entanto, eles frequentemente geram descrições clinicamente não fundamentadas, conhecidas como alucinações médicas, que representam sérios riscos em aplicações médicas que exigem precisão e resultados baseados em imagens. Por meio de análise empírica, descobrimos que alucinações induzidas por prompts permanecem prevalentes em MLLMs de radiologia, em grande parte devido à super-sensibilidade a seções clínicas. Para abordar isso, introduzimos o Clinical Contrastive Decoding (CCD), uma estrutura de inferência sem treinamento e sem recuperação que integra sinais clínicos estruturados de modelos especializados em radiologia específicos para a tarefa. O CCD introduz um mecanismo contrastivo de duplo estágio para refinar os logits em nível de token durante a geração, melhorando assim a fidelidade clínica sem modificar o MLLM base. Experimentos em três conjuntos de dados e múltiplos modelos demonstram que o CCD melhora consistentemente o desempenho geral na geração de relatórios radiológicos (RRG). No conjunto de dados MIMIC-CXR, ele proporciona uma melhoria de até 17% no RadGraph-F1 quando aplicado a modelos RRG de última geração. Nossa abordagem oferece uma solução leve e generalizável para mitigar alucinações médicas, efetivamente conectando modelos especializados e MLLMs em radiologia.
English
Multimodal large language models (MLLMs) have recently achieved remarkable
progress in radiology by integrating visual perception with natural language
understanding. However, they often generate clinically unsupported
descriptions, known as medical hallucinations, which pose serious risks in
medical applications that demand accuracy and image-grounded outputs. Through
empirical analysis, we find that prompt-induced hallucinations remain prevalent
in radiology MLLMs, largely due to over-sensitivity to clinical sections. To
address this, we introduce Clinical Contrastive Cecoding (CCD), a training-free
and retrieval-free inference framework that integrates structured clinical
signals from task-specific radiology expert models. CCD introduces a dual-stage
contrastive mechanism to refine token-level logits during generation, thereby
enhancing clinical fidelity without modifying the base MLLM. Experiments on
three datasets and multiple models demonstrate that CCD consistently improves
overall performance on radiology report generation (RRG). On the MIMIC-CXR
dataset, it yields up to a 17% improvement in RadGraph-F1 when applied to
state-of-the-art RRG models. Our approach provides a lightweight and
generalisable solution for mitigating medical hallucinations, effectively
bridging expert models and MLLMs in radiology.