LEAML: Label-effiziente Anpassung an Out-of-Distribution-Visualaufgaben für multimodale Large Language Models
LEAML: Label-Efficient Adaptation to Out-of-Distribution Visual Tasks for Multimodal Large Language Models
October 3, 2025
papers.authors: Ci-Siang Lin, Min-Hung Chen, Yu-Yang Sheng, Yu-Chiang Frank Wang
cs.AI
papers.abstract
Multimodale Large Language Models (MLLMs) haben auf allgemeinen visuellen Benchmarks starke Leistungen erzielt, zeigen jedoch Schwierigkeiten bei Out-of-Distribution (OOD)-Aufgaben in spezialisierten Domänen wie der medizinischen Bildgebung, wo annotierte Daten begrenzt und kostspielig sind. Wir stellen LEAML vor, ein label-effizientes Adaptionsframework, das sowohl knappe annotierte VQA-Beispiele als auch reichlich unannotierte Bilder nutzt. Unser Ansatz generiert domänenrelevante pseudo-Frage-Antwort-Paare für unannotierte Daten mithilfe eines QA-Generators, der durch Caption-Distillation regularisiert wird. Wichtig ist, dass wir selektiv nur diejenigen Neuronen aktualisieren, die für das Frage-Antworten am relevantesten sind, wodurch der QA-Generator effizient domänenspezifisches Wissen während der Distillation erwerben kann. Experimente zur gastrointestinalen Endoskopie und Sport-VQA zeigen, dass LEAML unter minimaler Supervision konsistent das Standard-Fine-Tuning übertrifft, was die Effektivität unseres vorgeschlagenen LEAML-Frameworks unterstreicht.
English
Multimodal Large Language Models (MLLMs) have achieved strong performance on
general visual benchmarks but struggle with out-of-distribution (OOD) tasks in
specialized domains such as medical imaging, where labeled data is limited and
expensive. We introduce LEAML, a label-efficient adaptation framework that
leverages both scarce labeled VQA samples and abundant unlabeled images. Our
approach generates domain-relevant pseudo question-answer pairs for unlabeled
data using a QA generator regularized by caption distillation. Importantly, we
selectively update only those neurons most relevant to question-answering,
enabling the QA Generator to efficiently acquire domain-specific knowledge
during distillation. Experiments on gastrointestinal endoscopy and sports VQA
demonstrate that LEAML consistently outperforms standard fine-tuning under
minimal supervision, highlighting the effectiveness of our proposed LEAML
framework.