Potenciación de la Comprensión Visual Médica Mediante Aprendizaje Lingüístico Multigranular
Boosting Medical Visual Understanding From Multi-Granular Language Learning
November 20, 2025
Autores: Zihan Li, Yiqing Wang, Sina Farsiu, Paul Kinahan
cs.AI
Resumen
Los recientes avances en el preentrenamiento de imagen-texto han mejorado significativamente la comprensión visual mediante la alineación de representaciones visuales y textuales. El Preentrenamiento Contraste Lenguaje-Imagen (CLIP) ha desempeñado un papel fundamental en el aprendizaje multimodal. Sin embargo, su enfoque en la alineación de granularidad única y etiqueta única limita su eficacia en dominios complejos como la imagen médica, donde las imágenes suelen corresponder a múltiples etiquetas de alto nivel (por ejemplo, categorías de enfermedades) en diferentes granularidades de anotación (por ejemplo, descripción diagnóstica, explicación clínica). Para abordar esto, proponemos el Aprendizaje de Lenguaje Multi-Granular (MGLL), un marco de aprendizaje contrastivo diseñado para mejorar tanto la alineación multi-etiqueta como la cross-granularidad. MGLL aprovecha la supervisión estructurada multi-etiqueta, integra descripciones textuales a través de granularidades e introduce supervisión de etiquetas suaves con restricciones punto a punto para mejorar la alineación. MGLL emplea la divergencia suavizada de Kullback-Leibler (KL) para garantizar la consistencia cross-granularidad manteniendo la eficiencia computacional como un módulo plug-and-play para modelos de visión y lenguaje. Preentrenado en nuestros conjuntos de datos multi-granulares a gran escala construidos y evaluado en múltiples conjuntos de datos, MGLL supera a otros métodos state-of-the-art en tareas posteriores. El código está disponible en https://github.com/HUANGLIZI/MGLL.
English
Recent advances in image-text pretraining have significantly enhanced visual understanding by aligning visual and textual representations. Contrastive Language-Image Pretraining (CLIP) has played a pivotal role in multimodal learning. However, its focus on single-label, single-granularity alignment limits its effectiveness in complex domains such as medical imaging, where images often correspond to multiple high-level labels (e.g., disease categories) across different annotation granularities (e.g., diagnostic description, clinical explanation). To address this, we propose Multi-Granular Language Learning (MGLL), a contrastive learning framework designed to improve both multi-label and cross-granularity alignment. MGLL leverages structured multi-label supervision, integrates textual descriptions across granularities, and introduces soft-label supervision with point-wise constraints to enhance alignment. MGLL employs smooth Kullback-Leibler (KL) divergence to ensure cross-granularity consistency while maintaining computational efficiency as a plug-and-play module for vision-language models. Pretrained on our constructed large-scale multi-granular datasets and evaluated across multiple datasets, MGLL outperforms other state-of-the-art methods in downstream tasks. The code is available at https://github.com/HUANGLIZI/MGLL{https://github.com/HUANGLIZI/MGLL}.