LEAML: 다중모달 대규모 언어 모델을 위한 분포 외 시각적 작업에 대한 레이블 효율적 적응
LEAML: Label-Efficient Adaptation to Out-of-Distribution Visual Tasks for Multimodal Large Language Models
October 3, 2025
저자: Ci-Siang Lin, Min-Hung Chen, Yu-Yang Sheng, Yu-Chiang Frank Wang
cs.AI
초록
멀티모달 대형 언어 모델(MLLMs)은 일반적인 시각 벤치마크에서 강력한 성능을 보여주지만, 의료 영상과 같은 전문 도메인의 분포 외(OOD) 작업에서는 어려움을 겪습니다. 이러한 도메인에서는 레이블이 지정된 데이터가 제한적이고 비용이 많이 들기 때문입니다. 우리는 LEAML이라는 레이블 효율적 적응 프레임워크를 소개합니다. 이 프레임워크는 부족한 레이블이 지정된 VQA 샘플과 풍부한 레이블이 없는 이미지를 모두 활용합니다. 우리의 접근 방식은 캡션 증류로 정규화된 QA 생성기를 사용하여 레이블이 없는 데이터에 대해 도메인 관련 의사 질문-답변 쌍을 생성합니다. 특히, 우리는 질문-답변과 가장 관련이 있는 뉴런만 선택적으로 업데이트하여 QA 생성기가 증류 과정에서 도메인 특정 지식을 효율적으로 습득할 수 있도록 합니다. 위장 내시경 및 스포츠 VQA에 대한 실험 결과, LEAML은 최소한의 감독 하에서 표준 미세 조정을 지속적으로 능가하며, 제안된 LEAML 프레임워크의 효과를 입증합니다.
English
Multimodal Large Language Models (MLLMs) have achieved strong performance on
general visual benchmarks but struggle with out-of-distribution (OOD) tasks in
specialized domains such as medical imaging, where labeled data is limited and
expensive. We introduce LEAML, a label-efficient adaptation framework that
leverages both scarce labeled VQA samples and abundant unlabeled images. Our
approach generates domain-relevant pseudo question-answer pairs for unlabeled
data using a QA generator regularized by caption distillation. Importantly, we
selectively update only those neurons most relevant to question-answering,
enabling the QA Generator to efficiently acquire domain-specific knowledge
during distillation. Experiments on gastrointestinal endoscopy and sports VQA
demonstrate that LEAML consistently outperforms standard fine-tuning under
minimal supervision, highlighting the effectiveness of our proposed LEAML
framework.