ChatPaper.aiChatPaper

Migliorare la Comprensione Visiva Medica Attraverso l'Apprendimento Linguistico Multi-Granulare

Boosting Medical Visual Understanding From Multi-Granular Language Learning

November 20, 2025
Autori: Zihan Li, Yiqing Wang, Sina Farsiu, Paul Kinahan
cs.AI

Abstract

I recenti progressi nel pre-addestramento immagine-testo hanno significativamente migliorato la comprensione visiva attraverso l'allineamento delle rappresentazioni visive e testuali. Il Contrastive Language-Image Pretraining (CLIP) ha svolto un ruolo fondamentale nell'apprendimento multimodale. Tuttavia, la sua focalizzazione sull'allineamento a singola etichetta e singola granularità ne limita l'efficacia in domini complessi come l'imaging medico, dove le immagini spesso corrispondono a multiple etichette di alto livello (ad esempio, categorie di malattie) attraverso diverse granularità di annotazione (ad esempio, descrizione diagnostica, spiegazione clinica). Per affrontare questa limitazione, proponiamo il Multi-Granular Language Learning (MGLL), un framework di apprendimento contrastivo progettato per migliorare sia l'allineamento multi-etichetta che quello cross-granularità. MGLL sfrutta una supervisione strutturata multi-etichetta, integra descrizioni testuali attraverso le granularità e introduce una supervisione a etichette soft con vincoli point-wise per migliorare l'allineamento. MGLL utilizza la divergenza di Kullback-Leibler (KL) regolarizzata per garantire la coerenza cross-granularità mantenendo al contempo l'efficienza computazionale come modulo plug-and-play per i modelli visione-linguaggio. Pre-addestrato sui nostri dataset su larga scala a multi-granularità costruiti appositamente e valutato su multiple banche dati, MGLL supera altri metodi state-of-the-art nei task downstream. Il codice è disponibile all'indirizzo https://github.com/HUANGLIZI/MGLL.
English
Recent advances in image-text pretraining have significantly enhanced visual understanding by aligning visual and textual representations. Contrastive Language-Image Pretraining (CLIP) has played a pivotal role in multimodal learning. However, its focus on single-label, single-granularity alignment limits its effectiveness in complex domains such as medical imaging, where images often correspond to multiple high-level labels (e.g., disease categories) across different annotation granularities (e.g., diagnostic description, clinical explanation). To address this, we propose Multi-Granular Language Learning (MGLL), a contrastive learning framework designed to improve both multi-label and cross-granularity alignment. MGLL leverages structured multi-label supervision, integrates textual descriptions across granularities, and introduces soft-label supervision with point-wise constraints to enhance alignment. MGLL employs smooth Kullback-Leibler (KL) divergence to ensure cross-granularity consistency while maintaining computational efficiency as a plug-and-play module for vision-language models. Pretrained on our constructed large-scale multi-granular datasets and evaluated across multiple datasets, MGLL outperforms other state-of-the-art methods in downstream tasks. The code is available at https://github.com/HUANGLIZI/MGLL{https://github.com/HUANGLIZI/MGLL}.
PDF12December 1, 2025