Aprimorando a Compreensão Visual Médica por Meio da Aprendizagem de Linguagem Multi-Granular
Boosting Medical Visual Understanding From Multi-Granular Language Learning
November 20, 2025
Autores: Zihan Li, Yiqing Wang, Sina Farsiu, Paul Kinahan
cs.AI
Resumo
Os avanços recentes no pré-treinamento de imagem-texto melhoraram significativamente a compreensão visual através do alinhamento de representações visuais e textuais. O Pré-treinamento de Linguagem-Imagem Contrastivo (CLIP) tem desempenhado um papel fundamental na aprendizagem multimodal. No entanto, o seu foco no alinhamento de granularidade única e rótulo único limita sua eficácia em domínios complexos, como a imagem médica, onde as imagens frequentemente correspondem a múltiplos rótulos de alto nível (por exemplo, categorias de doenças) em diferentes granularidades de anotação (por exemplo, descrição diagnóstica, explicação clínica). Para resolver isso, propomos a Aprendizagem de Linguagem Multi-Granular (MGLL), uma estrutura de aprendizagem contrastiva projetada para melhorar o alinhamento multi-rótulo e cross-granularidade. A MGLL aproveita a supervisão estruturada de múltiplos rótulos, integra descrições textuais entre granularidades e introduz supervisão de rótulos suaves com restrições ponto a ponto para melhorar o alinhamento. A MGLL emprege a divergência de Kullback-Leibler (KL) suave para garantir a consistência cross-granularidade, mantendo a eficiência computacional como um módulo plug-and-play para modelos de visão-linguagem. Pré-treinada nos nossos conjuntos de dados multi-granulares de larga escala construídos e avaliada em vários conjuntos de dados, a MGLL supera outros métodos state-of-the-art em tarefas downstream. O código está disponível em https://github.com/HUANGLIZI/MGLL{https://github.com/HUANGLIZI/MGLL}.
English
Recent advances in image-text pretraining have significantly enhanced visual understanding by aligning visual and textual representations. Contrastive Language-Image Pretraining (CLIP) has played a pivotal role in multimodal learning. However, its focus on single-label, single-granularity alignment limits its effectiveness in complex domains such as medical imaging, where images often correspond to multiple high-level labels (e.g., disease categories) across different annotation granularities (e.g., diagnostic description, clinical explanation). To address this, we propose Multi-Granular Language Learning (MGLL), a contrastive learning framework designed to improve both multi-label and cross-granularity alignment. MGLL leverages structured multi-label supervision, integrates textual descriptions across granularities, and introduces soft-label supervision with point-wise constraints to enhance alignment. MGLL employs smooth Kullback-Leibler (KL) divergence to ensure cross-granularity consistency while maintaining computational efficiency as a plug-and-play module for vision-language models. Pretrained on our constructed large-scale multi-granular datasets and evaluated across multiple datasets, MGLL outperforms other state-of-the-art methods in downstream tasks. The code is available at https://github.com/HUANGLIZI/MGLL{https://github.com/HUANGLIZI/MGLL}.