LEAML: Label-efficiënte aanpassing aan visuele taken buiten de distributie voor multimodale grote taalmodellen
LEAML: Label-Efficient Adaptation to Out-of-Distribution Visual Tasks for Multimodal Large Language Models
October 3, 2025
Auteurs: Ci-Siang Lin, Min-Hung Chen, Yu-Yang Sheng, Yu-Chiang Frank Wang
cs.AI
Samenvatting
Multimodale Large Language Models (MLLMs) hebben sterke prestaties behaald op algemene visuele benchmarks, maar worstelen met taken buiten de distributie (OOD) in gespecialiseerde domeinen zoals medische beeldvorming, waar gelabelde data beperkt en kostbaar is. Wij introduceren LEAML, een label-efficiënt aanpassingsframework dat zowel schaarse gelabelde VQA-voorbeelden als overvloedige ongelabelde afbeeldingen benut. Onze aanpak genereert domeinrelevante pseudo vraag-antwoordparen voor ongelabelde data met behulp van een QA-generator die geregulariseerd wordt door caption-distillatie. Belangrijk is dat we selectief alleen die neuronen bijwerken die het meest relevant zijn voor vraag-antwoordtaken, waardoor de QA-generator efficiënt domeinspecifieke kennis kan verwerven tijdens de distillatie. Experimenten op het gebied van gastro-intestinale endoscopie en sport-VQA tonen aan dat LEAML consistent beter presteert dan standaard fine-tuning onder minimale supervisie, wat de effectiviteit van ons voorgestelde LEAML-framework onderstreept.
English
Multimodal Large Language Models (MLLMs) have achieved strong performance on
general visual benchmarks but struggle with out-of-distribution (OOD) tasks in
specialized domains such as medical imaging, where labeled data is limited and
expensive. We introduce LEAML, a label-efficient adaptation framework that
leverages both scarce labeled VQA samples and abundant unlabeled images. Our
approach generates domain-relevant pseudo question-answer pairs for unlabeled
data using a QA generator regularized by caption distillation. Importantly, we
selectively update only those neurons most relevant to question-answering,
enabling the QA Generator to efficiently acquire domain-specific knowledge
during distillation. Experiments on gastrointestinal endoscopy and sports VQA
demonstrate that LEAML consistently outperforms standard fine-tuning under
minimal supervision, highlighting the effectiveness of our proposed LEAML
framework.