ChatPaper.aiChatPaper

CCD: Het verminderen van hallucinaties in radiologische MLLM's via klinische contrastieve decodering

CCD: Mitigating Hallucinations in Radiology MLLMs via Clinical Contrastive Decoding

September 27, 2025
Auteurs: Xi Zhang, Zaiqiao Meng, Jake Lever, Edmond S. L. Ho
cs.AI

Samenvatting

Multimodale grote taalmodellen (MLLMs) hebben recentelijk opmerkelijke vooruitgang geboekt in de radiologie door visuele waarneming te integreren met natuurlijke taalverwerking. Ze genereren echter vaak klinisch niet-onderbouwde beschrijvingen, bekend als medische hallucinaties, wat ernstige risico's met zich meebrengt in medische toepassingen die nauwkeurigheid en beeldgebaseerde uitvoer vereisen. Door empirische analyse constateren we dat prompt-geïnduceerde hallucinaties nog steeds veel voorkomen in radiologische MLLMs, voornamelijk door overgevoeligheid voor klinische secties. Om dit aan te pakken, introduceren we Clinical Contrastive Decoding (CCD), een trainingsvrij en retrieval-vrij inferentiekader dat gestructureerde klinische signalen integreert van taakspecifieke radiologie-expertmodellen. CCD introduceert een dubbelfasig contrastief mechanisme om token-level logits te verfijnen tijdens de generatie, waardoor de klinische betrouwbaarheid wordt verbeterd zonder het basis-MLLM aan te passen. Experimenten op drie datasets en meerdere modellen tonen aan dat CCD consistent de algehele prestaties verbetert bij het genereren van radiologische rapporten (RRG). Op de MIMIC-CXR dataset levert het tot 17% verbetering in RadGraph-F1 op wanneer het wordt toegepast op state-of-the-art RRG-modellen. Onze aanpak biedt een lichtgewicht en generaliseerbare oplossing voor het verminderen van medische hallucinaties, waardoor expertmodellen en MLLMs effectief worden verbonden in de radiologie.
English
Multimodal large language models (MLLMs) have recently achieved remarkable progress in radiology by integrating visual perception with natural language understanding. However, they often generate clinically unsupported descriptions, known as medical hallucinations, which pose serious risks in medical applications that demand accuracy and image-grounded outputs. Through empirical analysis, we find that prompt-induced hallucinations remain prevalent in radiology MLLMs, largely due to over-sensitivity to clinical sections. To address this, we introduce Clinical Contrastive Cecoding (CCD), a training-free and retrieval-free inference framework that integrates structured clinical signals from task-specific radiology expert models. CCD introduces a dual-stage contrastive mechanism to refine token-level logits during generation, thereby enhancing clinical fidelity without modifying the base MLLM. Experiments on three datasets and multiple models demonstrate that CCD consistently improves overall performance on radiology report generation (RRG). On the MIMIC-CXR dataset, it yields up to a 17% improvement in RadGraph-F1 when applied to state-of-the-art RRG models. Our approach provides a lightweight and generalisable solution for mitigating medical hallucinations, effectively bridging expert models and MLLMs in radiology.
PDF143October 8, 2025