LEAML: Adaptação Eficiente em Rótulos para Tarefas Visuais Fora da Distribuição em Modelos de Linguagem Multimodais de Grande Escala

Resumo

Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm alcançado desempenho robusto em benchmarks visuais gerais, mas enfrentam dificuldades em tarefas fora da distribuição (OOD) em domínios especializados, como imagens médicas, onde dados rotulados são limitados e caros. Apresentamos o LEAML, uma estrutura de adaptação eficiente em termos de rótulos que aproveita tanto amostras escassas de VQA rotuladas quanto imagens não rotuladas abundantes. Nossa abordagem gera pares de perguntas-respostas pseudo-relevantes para o domínio a partir de dados não rotulados, utilizando um gerador de QA regularizado por destilação de legendas. De forma crucial, atualizamos seletivamente apenas os neurônios mais relevantes para a tarefa de perguntas e respostas, permitindo que o Gerador de QA adquira eficientemente conhecimento específico do domínio durante a destilação. Experimentos em endoscopia gastrointestinal e VQA esportiva demonstram que o LEAML supera consistentemente o ajuste fino padrão sob supervisão mínima, destacando a eficácia da nossa estrutura LEAML proposta.

English

Multimodal Large Language Models (MLLMs) have achieved strong performance on general visual benchmarks but struggle with out-of-distribution (OOD) tasks in specialized domains such as medical imaging, where labeled data is limited and expensive. We introduce LEAML, a label-efficient adaptation framework that leverages both scarce labeled VQA samples and abundant unlabeled images. Our approach generates domain-relevant pseudo question-answer pairs for unlabeled data using a QA generator regularized by caption distillation. Importantly, we selectively update only those neurons most relevant to question-answering, enabling the QA Generator to efficiently acquire domain-specific knowledge during distillation. Experiments on gastrointestinal endoscopy and sports VQA demonstrate that LEAML consistently outperforms standard fine-tuning under minimal supervision, highlighting the effectiveness of our proposed LEAML framework.

LEAML: Adaptação Eficiente em Rótulos para Tarefas Visuais Fora da Distribuição em Modelos de Linguagem Multimodais de Grande Escala

LEAML: Label-Efficient Adaptation to Out-of-Distribution Visual Tasks for Multimodal Large Language Models

Resumo

Support