LEAML: Adaptação Eficiente em Rótulos para Tarefas Visuais Fora da Distribuição em Modelos de Linguagem Multimodais de Grande Escala
LEAML: Label-Efficient Adaptation to Out-of-Distribution Visual Tasks for Multimodal Large Language Models
October 3, 2025
Autores: Ci-Siang Lin, Min-Hung Chen, Yu-Yang Sheng, Yu-Chiang Frank Wang
cs.AI
Resumo
Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm alcançado desempenho robusto em benchmarks visuais gerais, mas enfrentam dificuldades em tarefas fora da distribuição (OOD) em domínios especializados, como imagens médicas, onde dados rotulados são limitados e caros. Apresentamos o LEAML, uma estrutura de adaptação eficiente em termos de rótulos que aproveita tanto amostras escassas de VQA rotuladas quanto imagens não rotuladas abundantes. Nossa abordagem gera pares de perguntas-respostas pseudo-relevantes para o domínio a partir de dados não rotulados, utilizando um gerador de QA regularizado por destilação de legendas. De forma crucial, atualizamos seletivamente apenas os neurônios mais relevantes para a tarefa de perguntas e respostas, permitindo que o Gerador de QA adquira eficientemente conhecimento específico do domínio durante a destilação. Experimentos em endoscopia gastrointestinal e VQA esportiva demonstram que o LEAML supera consistentemente o ajuste fino padrão sob supervisão mínima, destacando a eficácia da nossa estrutura LEAML proposta.
English
Multimodal Large Language Models (MLLMs) have achieved strong performance on
general visual benchmarks but struggle with out-of-distribution (OOD) tasks in
specialized domains such as medical imaging, where labeled data is limited and
expensive. We introduce LEAML, a label-efficient adaptation framework that
leverages both scarce labeled VQA samples and abundant unlabeled images. Our
approach generates domain-relevant pseudo question-answer pairs for unlabeled
data using a QA generator regularized by caption distillation. Importantly, we
selectively update only those neurons most relevant to question-answering,
enabling the QA Generator to efficiently acquire domain-specific knowledge
during distillation. Experiments on gastrointestinal endoscopy and sports VQA
demonstrate that LEAML consistently outperforms standard fine-tuning under
minimal supervision, highlighting the effectiveness of our proposed LEAML
framework.