ChatPaper.aiChatPaper

Amélioration de la compréhension visuelle médicale par l'apprentissage linguistique multi-granulaire

Boosting Medical Visual Understanding From Multi-Granular Language Learning

November 20, 2025
papers.authors: Zihan Li, Yiqing Wang, Sina Farsiu, Paul Kinahan
cs.AI

papers.abstract

Les progrès récents en pré-entraînement image-texte ont considérablement amélioré la compréhension visuelle grâce à l'alignement des représentations visuelles et textuelles. Le pré-entraînement contrasté image-langage (CLIP) a joué un rôle central dans l'apprentissage multimodal. Cependant, son accent sur l'alignement à granularité unique et à étiquette unique limite son efficacité dans des domaines complexes comme l'imagerie médicale, où les images correspondent souvent à plusieurs étiquettes de haut niveau (par exemple, des catégories de maladies) selon différentes granularités d'annotation (par exemple, description diagnostique, explication clinique). Pour remédier à cela, nous proposons l'apprentissage linguistique multi-granularité (MGLL), un cadre d'apprentissage contrasté conçu pour améliorer à la fois l'alignement multi-étiquettes et inter-granularités. MGLL exploite une supervision structurée multi-étiquettes, intègre des descriptions textuelles across granularités, et introduit une supervision par étiquettes douces avec des contraintes ponctuelles pour renforcer l'alignement. MGLL utilise la divergence de Kullback-Leibler (KL) lissée pour garantir la cohérence inter-granularités tout en maintenant une efficacité computationnelle en tant que module plug-and-play pour les modèles vision-langage. Pré-entraîné sur nos jeux de données à grande échelle multi-granularités construits et évalué sur plusieurs ensembles de données, MGLL surpasse les autres méthodes de pointe dans les tâches en aval. Le code est disponible à l'adresse https://github.com/HUANGLIZI/MGLL.
English
Recent advances in image-text pretraining have significantly enhanced visual understanding by aligning visual and textual representations. Contrastive Language-Image Pretraining (CLIP) has played a pivotal role in multimodal learning. However, its focus on single-label, single-granularity alignment limits its effectiveness in complex domains such as medical imaging, where images often correspond to multiple high-level labels (e.g., disease categories) across different annotation granularities (e.g., diagnostic description, clinical explanation). To address this, we propose Multi-Granular Language Learning (MGLL), a contrastive learning framework designed to improve both multi-label and cross-granularity alignment. MGLL leverages structured multi-label supervision, integrates textual descriptions across granularities, and introduces soft-label supervision with point-wise constraints to enhance alignment. MGLL employs smooth Kullback-Leibler (KL) divergence to ensure cross-granularity consistency while maintaining computational efficiency as a plug-and-play module for vision-language models. Pretrained on our constructed large-scale multi-granular datasets and evaluated across multiple datasets, MGLL outperforms other state-of-the-art methods in downstream tasks. The code is available at https://github.com/HUANGLIZI/MGLL{https://github.com/HUANGLIZI/MGLL}.
PDF12December 1, 2025