ChatPaper.aiChatPaper

Verbetering van Medisch Visueel Begrip door Leren met Multi-granulaire Taal

Boosting Medical Visual Understanding From Multi-Granular Language Learning

November 20, 2025
Auteurs: Zihan Li, Yiqing Wang, Sina Farsiu, Paul Kinahan
cs.AI

Samenvatting

Recente vooruitgang in beeld-tekst vooraf trainen heeft het visuele begrip aanzienlijk verbeterd door visuele en tekstuele representaties uit te lijnen. Contrastief Taal-Beeld Vooraf Trainen (CLIP) heeft een cruciale rol gespeeld in multimodaal leren. Echter, de focus op enkelvoudige-label, enkelvoudige-granulariteit uitlijning beperkt de effectiviteit ervan in complexe domeinen zoals medische beeldvorming, waar afbeeldingen vaak corresponderen met meerdere hoog-niveau labels (bijvoorbeeld ziekteclassificaties) over verschillende annotatiegranulariteiten (bijvoorbeeld diagnostische beschrijving, klinische verklaring). Om dit aan te pakken, stellen we Multi-Granular Taal Leren (MGLL) voor, een contrastief leerframework ontworpen om zowel multi-label als cross-granulariteit uitlijning te verbeteren. MGLL benut gestructureerde multi-label supervisie, integreert tekstuele beschrijvingen over granulariteiten heen en introduceert soft-label supervisie met puntgewijze beperkingen om de uitlijning te verbeteren. MGLL maakt gebruik van gladde Kullback-Leibler (KL) divergentie om cross-granulariteit consistentie te waarborgen, terwijl het de rekenkundige efficiëntie behoudt als een plug-and-play module voor visie-taalmodellen. Voorgetraind op onze geconstrueerde grootschalige multi-granulaire datasets en geëvalueerd over meerdere datasets, presteert MGLL beter dan andere state-of-the-art methoden in downstream taken. De code is beschikbaar op https://github.com/HUANGLIZI/MGLL{https://github.com/HUANGLIZI/MGLL}.
English
Recent advances in image-text pretraining have significantly enhanced visual understanding by aligning visual and textual representations. Contrastive Language-Image Pretraining (CLIP) has played a pivotal role in multimodal learning. However, its focus on single-label, single-granularity alignment limits its effectiveness in complex domains such as medical imaging, where images often correspond to multiple high-level labels (e.g., disease categories) across different annotation granularities (e.g., diagnostic description, clinical explanation). To address this, we propose Multi-Granular Language Learning (MGLL), a contrastive learning framework designed to improve both multi-label and cross-granularity alignment. MGLL leverages structured multi-label supervision, integrates textual descriptions across granularities, and introduces soft-label supervision with point-wise constraints to enhance alignment. MGLL employs smooth Kullback-Leibler (KL) divergence to ensure cross-granularity consistency while maintaining computational efficiency as a plug-and-play module for vision-language models. Pretrained on our constructed large-scale multi-granular datasets and evaluated across multiple datasets, MGLL outperforms other state-of-the-art methods in downstream tasks. The code is available at https://github.com/HUANGLIZI/MGLL{https://github.com/HUANGLIZI/MGLL}.
PDF12December 1, 2025