ChatPaper.aiChatPaper

Verbesserung des medizinischen Bildverständnisses durch mehrstufiges Sprachenlernen

Boosting Medical Visual Understanding From Multi-Granular Language Learning

November 20, 2025
papers.authors: Zihan Li, Yiqing Wang, Sina Farsiu, Paul Kinahan
cs.AI

papers.abstract

Jüngste Fortschritte beim Bild-Text-Pretraining haben das visuelle Verständnis durch die Abstimmung visueller und textueller Repräsentationen erheblich verbessert. Contrastive Language-Image Pretraining (CLIP) hat eine zentrale Rolle im multimodalen Lernen gespielt. Allerdings schränkt sein Fokus auf Einzel-Label- und Einzel-Granularitäts-Abgleich seine Wirksamkeit in komplexen Domänen wie der medizinischen Bildgebung ein, wo Bilder oft mehreren High-Level-Labels (z.B. Krankheitskategorien) über verschiedene Annotationsgranularitäten hinweg entsprechen (z.B. diagnostische Beschreibung, klinische Erklärung). Um dies zu adressieren, schlagen wir Multi-Granular Language Learning (MGLL) vor, ein kontrastives Lernframework, das entwickelt wurde, um sowohl Multi-Label- als auch Cross-Granularitäts-Abgleich zu verbessern. MGLL nutzt strukturierte Multi-Label-Supervision, integriert textuelle Beschreibungen über Granularitäten hinweg und führt Soft-Label-Supervision mit punktweisen Constraints ein, um die Abstimmung zu verbessern. MGLL verwendet eine geglättete Kullback-Leibler (KL)-Divergenz, um Cross-Granularitäts-Konsistenz zu gewährleisten und dabei recheneffizient als Plug-and-Play-Modul für Vision-Language-Modelle zu bleiben. Auf unseren konstruierten groß angelegten Multi-Granularitäts-Datensätzen vortrainiert und über mehrere Datensätze hinweg evaluiert, übertrifft MGLL andere state-of-the-art-Methoden in nachgelagerten Aufgaben. Der Code ist verfügbar unter https://github.com/HUANGLIZI/MGLL{https://github.com/HUANGLIZI/MGLL}.
English
Recent advances in image-text pretraining have significantly enhanced visual understanding by aligning visual and textual representations. Contrastive Language-Image Pretraining (CLIP) has played a pivotal role in multimodal learning. However, its focus on single-label, single-granularity alignment limits its effectiveness in complex domains such as medical imaging, where images often correspond to multiple high-level labels (e.g., disease categories) across different annotation granularities (e.g., diagnostic description, clinical explanation). To address this, we propose Multi-Granular Language Learning (MGLL), a contrastive learning framework designed to improve both multi-label and cross-granularity alignment. MGLL leverages structured multi-label supervision, integrates textual descriptions across granularities, and introduces soft-label supervision with point-wise constraints to enhance alignment. MGLL employs smooth Kullback-Leibler (KL) divergence to ensure cross-granularity consistency while maintaining computational efficiency as a plug-and-play module for vision-language models. Pretrained on our constructed large-scale multi-granular datasets and evaluated across multiple datasets, MGLL outperforms other state-of-the-art methods in downstream tasks. The code is available at https://github.com/HUANGLIZI/MGLL{https://github.com/HUANGLIZI/MGLL}.
PDF12December 1, 2025