ChatPaper.aiChatPaper

다중 세분화 언어 학습을 통한 의료 영상 이해 향상

Boosting Medical Visual Understanding From Multi-Granular Language Learning

November 20, 2025
저자: Zihan Li, Yiqing Wang, Sina Farsiu, Paul Kinahan
cs.AI

초록

이미지-텍스트 사전 학습의 최근 발전은 시각적 표현과 텍스트 표현을 정렬함으로써 시각적 이해를 크게 향상시켰습니다. 대조적 언어-이미지 사전 학습(CLIP)은 멀티모달 학습에서 핵심적인 역할을 해왔습니다. 그러나 단일 레이블 및 단일 세분성 정렬에 집중하는 CLIP의 접근 방식은 의료 영상과 같은 복잡한 영역에서 그 효과성이 제한됩니다. 의료 영상에서는 단일 이미지가 여러 상위 레이블(예: 질병 범주)과 다양한 주석 세분성(예: 진단 설명, 임상적 설명)에 대응되는 경우가 빈번하기 때문입니다. 이를 해결하기 위해 우리는 다중 레이블 및 교차 세분성 정렬을 모두 개선하기 위해 설계된 대조 학습 프레임워크인 다중 세분성 언어 학습(MGLL)을 제안합니다. MGLL는 구조화된 다중 레이블 지도를 활용하고, 세분성 간 텍스트 설명을 통합하며, 점별 제약 조건을 갖는 소프트 레이블 지도를 도입하여 정렬 성능을 향상시킵니다. MGLL는 부드러운 Kullback-Leibler (KL) 발산을 사용하여 교차 세분성 일관성을 보장하면서도 비전-언어 모델용 플러그 앤 플레이 모듈로서 계산 효율성을 유지합니다. 구축된 대규모 다중 세분성 데이터셋으로 사전 학습되고 여러 데이터셋에서 평가된 결과, MGLL는 하류 작업에서 다른 최첨단 방법들을 능가하는 성능을 보여줍니다. 코드는 https://github.com/HUANGLIZI/MGLL에서 이용 가능합니다.
English
Recent advances in image-text pretraining have significantly enhanced visual understanding by aligning visual and textual representations. Contrastive Language-Image Pretraining (CLIP) has played a pivotal role in multimodal learning. However, its focus on single-label, single-granularity alignment limits its effectiveness in complex domains such as medical imaging, where images often correspond to multiple high-level labels (e.g., disease categories) across different annotation granularities (e.g., diagnostic description, clinical explanation). To address this, we propose Multi-Granular Language Learning (MGLL), a contrastive learning framework designed to improve both multi-label and cross-granularity alignment. MGLL leverages structured multi-label supervision, integrates textual descriptions across granularities, and introduces soft-label supervision with point-wise constraints to enhance alignment. MGLL employs smooth Kullback-Leibler (KL) divergence to ensure cross-granularity consistency while maintaining computational efficiency as a plug-and-play module for vision-language models. Pretrained on our constructed large-scale multi-granular datasets and evaluated across multiple datasets, MGLL outperforms other state-of-the-art methods in downstream tasks. The code is available at https://github.com/HUANGLIZI/MGLL{https://github.com/HUANGLIZI/MGLL}.
PDF12December 1, 2025