ChatPaper.aiChatPaper

Повышение качества медицинского визуального анализа за счет многомасштабного обучения на языковых данных

Boosting Medical Visual Understanding From Multi-Granular Language Learning

November 20, 2025
Авторы: Zihan Li, Yiqing Wang, Sina Farsiu, Paul Kinahan
cs.AI

Аннотация

Последние достижения в предварительном обучении моделей на изображениях и текстах значительно улучшили визуальное понимание за счет согласования визуальных и текстовых представлений. Контрастное предварительное обучение «язык-изображение» (CLIP) сыграло ключевую роль в многомодальном обучении. Однако его ориентация на согласование с одной меткой и одной гранулярностью ограничивает эффективность в сложных областях, таких как медицинская визуализация, где изображения часто соответствуют нескольким меткам высокого уровня (например, категориям заболеваний) с различной гранулярностью аннотаций (например, диагностическое описание, клиническое объяснение). Для решения этой проблемы мы предлагаем обучение с многогранулярными языковыми описаниями (MGLL) — контрастную фреймворк-структуру, предназначенную для улучшения как многометочного, так и межгранулярного согласования. MGLL использует структурированный многометочный контроль, интегрирует текстовые описания разных уровней детализации и вводит мягкий контроль с поточечными ограничениями для улучшения согласования. MGLL применяет сглаженную дивергенцию Кульбака-Лейблера для обеспечения межгранулярной согласованности при сохранении вычислительной эффективности в качестве модуля plug-and-play для моделей «визуализация-язык». Прошедшая предварительное обучение на наших крупномасштабных многогранулярных наборах данных и оцененная на нескольких наборах данных, MGLL превосходит другие современные методы в последующих задачах. Код доступен по адресу https://github.com/HUANGLIZI/MGLL.
English
Recent advances in image-text pretraining have significantly enhanced visual understanding by aligning visual and textual representations. Contrastive Language-Image Pretraining (CLIP) has played a pivotal role in multimodal learning. However, its focus on single-label, single-granularity alignment limits its effectiveness in complex domains such as medical imaging, where images often correspond to multiple high-level labels (e.g., disease categories) across different annotation granularities (e.g., diagnostic description, clinical explanation). To address this, we propose Multi-Granular Language Learning (MGLL), a contrastive learning framework designed to improve both multi-label and cross-granularity alignment. MGLL leverages structured multi-label supervision, integrates textual descriptions across granularities, and introduces soft-label supervision with point-wise constraints to enhance alignment. MGLL employs smooth Kullback-Leibler (KL) divergence to ensure cross-granularity consistency while maintaining computational efficiency as a plug-and-play module for vision-language models. Pretrained on our constructed large-scale multi-granular datasets and evaluated across multiple datasets, MGLL outperforms other state-of-the-art methods in downstream tasks. The code is available at https://github.com/HUANGLIZI/MGLL{https://github.com/HUANGLIZI/MGLL}.
PDF12December 1, 2025