CCD : Atténuation des hallucinations dans les MLLM de radiologie par décodage contrastif clinique
CCD: Mitigating Hallucinations in Radiology MLLMs via Clinical Contrastive Decoding
September 27, 2025
papers.authors: Xi Zhang, Zaiqiao Meng, Jake Lever, Edmond S. L. Ho
cs.AI
papers.abstract
Les modèles de langage multimodaux de grande taille (MLLMs) ont récemment réalisé des progrès remarquables en radiologie en intégrant la perception visuelle avec la compréhension du langage naturel. Cependant, ils génèrent souvent des descriptions non étayées cliniquement, connues sous le nom d'hallucinations médicales, qui posent des risques sérieux dans les applications médicales exigeant précision et résultats ancrés dans l'image. À travers une analyse empirique, nous constatons que les hallucinations induites par les prompts restent prévalentes dans les MLLMs de radiologie, principalement en raison d'une sensibilité excessive aux sections cliniques. Pour remédier à cela, nous introduisons le Clinical Contrastive Decoding (CCD), un cadre d'inférence sans apprentissage et sans récupération qui intègre des signaux cliniques structurés provenant de modèles experts en radiologie spécifiques à la tâche. Le CCD introduit un mécanisme contrastif en deux étapes pour affiner les logits au niveau des tokens lors de la génération, améliorant ainsi la fidélité clinique sans modifier le MLLM de base. Les expériences sur trois ensembles de données et plusieurs modèles démontrent que le CCD améliore de manière constante les performances globales en génération de rapports radiologiques (RRG). Sur l'ensemble de données MIMIC-CXR, il permet une amélioration allant jusqu'à 17 % en RadGraph-F1 lorsqu'il est appliqué aux modèles RRG de pointe. Notre approche fournit une solution légère et généralisable pour atténuer les hallucinations médicales, reliant efficacement les modèles experts et les MLLMs en radiologie.
English
Multimodal large language models (MLLMs) have recently achieved remarkable
progress in radiology by integrating visual perception with natural language
understanding. However, they often generate clinically unsupported
descriptions, known as medical hallucinations, which pose serious risks in
medical applications that demand accuracy and image-grounded outputs. Through
empirical analysis, we find that prompt-induced hallucinations remain prevalent
in radiology MLLMs, largely due to over-sensitivity to clinical sections. To
address this, we introduce Clinical Contrastive Cecoding (CCD), a training-free
and retrieval-free inference framework that integrates structured clinical
signals from task-specific radiology expert models. CCD introduces a dual-stage
contrastive mechanism to refine token-level logits during generation, thereby
enhancing clinical fidelity without modifying the base MLLM. Experiments on
three datasets and multiple models demonstrate that CCD consistently improves
overall performance on radiology report generation (RRG). On the MIMIC-CXR
dataset, it yields up to a 17% improvement in RadGraph-F1 when applied to
state-of-the-art RRG models. Our approach provides a lightweight and
generalisable solution for mitigating medical hallucinations, effectively
bridging expert models and MLLMs in radiology.