ChatPaper.aiChatPaper

CCD: Reduzierung von Halluzinationen in radiologischen MLLMs durch klinisches kontrastives Decodieren

CCD: Mitigating Hallucinations in Radiology MLLMs via Clinical Contrastive Decoding

September 27, 2025
papers.authors: Xi Zhang, Zaiqiao Meng, Jake Lever, Edmond S. L. Ho
cs.AI

papers.abstract

Multimodale große Sprachmodelle (MLLMs) haben in der Radiologie kürzlich bemerkenswerte Fortschritte erzielt, indem sie visuelle Wahrnehmung mit natürlichem Sprachverständnis integrieren. Allerdings generieren sie oft klinisch nicht unterstützte Beschreibungen, sogenannte medizinische Halluzinationen, die in medizinischen Anwendungen, die Genauigkeit und bildgestützte Ergebnisse erfordern, ernsthafte Risiken darstellen. Durch empirische Analysen stellen wir fest, dass prompt-induzierte Halluzinationen in radiologischen MLLMs weiterhin weit verbreitet sind, was größtenteils auf eine Überempfindlichkeit gegenüber klinischen Abschnitten zurückzuführen ist. Um dies zu adressieren, führen wir Clinical Contrastive Decoding (CCD) ein, ein trainingsfreies und abruffreies Inferenzframework, das strukturierte klinische Signale aus aufgaben-spezifischen radiologischen Expertenmodellen integriert. CCD führt einen zweistufigen Kontrastmechanismus ein, um Token-Level-Logits während der Generierung zu verfeinern und dadurch die klinische Treue zu verbessern, ohne das Basismodell der MLLMs zu modifizieren. Experimente auf drei Datensätzen und mit mehreren Modellen zeigen, dass CCD die Gesamtleistung bei der Generierung von Radiologieberichten (RRG) konsistent verbessert. Auf dem MIMIC-CXR-Datensatz erzielt es eine Verbesserung von bis zu 17 % in RadGraph-F1, wenn es auf state-of-the-art RRG-Modelle angewendet wird. Unser Ansatz bietet eine leichtgewichtige und generalisierbare Lösung zur Minderung medizinischer Halluzinationen und verbindet effektiv Expertenmodelle und MLLMs in der Radiologie.
English
Multimodal large language models (MLLMs) have recently achieved remarkable progress in radiology by integrating visual perception with natural language understanding. However, they often generate clinically unsupported descriptions, known as medical hallucinations, which pose serious risks in medical applications that demand accuracy and image-grounded outputs. Through empirical analysis, we find that prompt-induced hallucinations remain prevalent in radiology MLLMs, largely due to over-sensitivity to clinical sections. To address this, we introduce Clinical Contrastive Cecoding (CCD), a training-free and retrieval-free inference framework that integrates structured clinical signals from task-specific radiology expert models. CCD introduces a dual-stage contrastive mechanism to refine token-level logits during generation, thereby enhancing clinical fidelity without modifying the base MLLM. Experiments on three datasets and multiple models demonstrate that CCD consistently improves overall performance on radiology report generation (RRG). On the MIMIC-CXR dataset, it yields up to a 17% improvement in RadGraph-F1 when applied to state-of-the-art RRG models. Our approach provides a lightweight and generalisable solution for mitigating medical hallucinations, effectively bridging expert models and MLLMs in radiology.
PDF103October 8, 2025