LEAML: Adattamento Efficiente in Termini di Etichette a Compiti Visivi Fuori Distribuzione per Modelli Linguistici Multimodali di Grandi Dimensioni
LEAML: Label-Efficient Adaptation to Out-of-Distribution Visual Tasks for Multimodal Large Language Models
October 3, 2025
Autori: Ci-Siang Lin, Min-Hung Chen, Yu-Yang Sheng, Yu-Chiang Frank Wang
cs.AI
Abstract
I Modelli Linguistici Multimodali di Grande Scala (MLLMs) hanno ottenuto prestazioni solide su benchmark visivi generali, ma incontrano difficoltà con compiti fuori distribuzione (OOD) in domini specializzati come l'imaging medico, dove i dati etichettati sono limitati e costosi. Introduciamo LEAML, un framework di adattamento efficiente nell'uso delle etichette che sfrutta sia i rari campioni etichettati di VQA (Visual Question Answering) sia le abbondanti immagini non etichettate. Il nostro approccio genera coppie pseudo domanda-risposta rilevanti per il dominio per i dati non etichettati utilizzando un generatore di QA regolarizzato dalla distillazione di didascalie. In modo cruciale, aggiorniamo selettivamente solo quei neuroni più rilevanti per il question-answering, consentendo al Generatore di QA di acquisire in modo efficiente conoscenze specifiche del dominio durante la distillazione. Esperimenti su VQA di endoscopia gastrointestinale e sport dimostrano che LEAML supera costantemente il fine-tuning standard con supervisione minima, evidenziando l'efficacia del nostro framework LEAML proposto.
English
Multimodal Large Language Models (MLLMs) have achieved strong performance on
general visual benchmarks but struggle with out-of-distribution (OOD) tasks in
specialized domains such as medical imaging, where labeled data is limited and
expensive. We introduce LEAML, a label-efficient adaptation framework that
leverages both scarce labeled VQA samples and abundant unlabeled images. Our
approach generates domain-relevant pseudo question-answer pairs for unlabeled
data using a QA generator regularized by caption distillation. Importantly, we
selectively update only those neurons most relevant to question-answering,
enabling the QA Generator to efficiently acquire domain-specific knowledge
during distillation. Experiments on gastrointestinal endoscopy and sports VQA
demonstrate that LEAML consistently outperforms standard fine-tuning under
minimal supervision, highlighting the effectiveness of our proposed LEAML
framework.