LEAML: Label-effiziente Anpassung an Out-of-Distribution-Visualaufgaben für multimodale Large Language Models

papers.abstract

Multimodale Large Language Models (MLLMs) haben auf allgemeinen visuellen Benchmarks starke Leistungen erzielt, zeigen jedoch Schwierigkeiten bei Out-of-Distribution (OOD)-Aufgaben in spezialisierten Domänen wie der medizinischen Bildgebung, wo annotierte Daten begrenzt und kostspielig sind. Wir stellen LEAML vor, ein label-effizientes Adaptionsframework, das sowohl knappe annotierte VQA-Beispiele als auch reichlich unannotierte Bilder nutzt. Unser Ansatz generiert domänenrelevante pseudo-Frage-Antwort-Paare für unannotierte Daten mithilfe eines QA-Generators, der durch Caption-Distillation regularisiert wird. Wichtig ist, dass wir selektiv nur diejenigen Neuronen aktualisieren, die für das Frage-Antworten am relevantesten sind, wodurch der QA-Generator effizient domänenspezifisches Wissen während der Distillation erwerben kann. Experimente zur gastrointestinalen Endoskopie und Sport-VQA zeigen, dass LEAML unter minimaler Supervision konsistent das Standard-Fine-Tuning übertrifft, was die Effektivität unseres vorgeschlagenen LEAML-Frameworks unterstreicht.

English

Multimodal Large Language Models (MLLMs) have achieved strong performance on general visual benchmarks but struggle with out-of-distribution (OOD) tasks in specialized domains such as medical imaging, where labeled data is limited and expensive. We introduce LEAML, a label-efficient adaptation framework that leverages both scarce labeled VQA samples and abundant unlabeled images. Our approach generates domain-relevant pseudo question-answer pairs for unlabeled data using a QA generator regularized by caption distillation. Importantly, we selectively update only those neurons most relevant to question-answering, enabling the QA Generator to efficiently acquire domain-specific knowledge during distillation. Experiments on gastrointestinal endoscopy and sports VQA demonstrate that LEAML consistently outperforms standard fine-tuning under minimal supervision, highlighting the effectiveness of our proposed LEAML framework.

LEAML: Label-effiziente Anpassung an Out-of-Distribution-Visualaufgaben für multimodale Large Language Models

LEAML: Label-Efficient Adaptation to Out-of-Distribution Visual Tasks for Multimodal Large Language Models

papers.abstract

Support