LEAML: Label-efficiënte aanpassing aan visuele taken buiten de distributie voor multimodale grote taalmodellen

Samenvatting

Multimodale Large Language Models (MLLMs) hebben sterke prestaties behaald op algemene visuele benchmarks, maar worstelen met taken buiten de distributie (OOD) in gespecialiseerde domeinen zoals medische beeldvorming, waar gelabelde data beperkt en kostbaar is. Wij introduceren LEAML, een label-efficiënt aanpassingsframework dat zowel schaarse gelabelde VQA-voorbeelden als overvloedige ongelabelde afbeeldingen benut. Onze aanpak genereert domeinrelevante pseudo vraag-antwoordparen voor ongelabelde data met behulp van een QA-generator die geregulariseerd wordt door caption-distillatie. Belangrijk is dat we selectief alleen die neuronen bijwerken die het meest relevant zijn voor vraag-antwoordtaken, waardoor de QA-generator efficiënt domeinspecifieke kennis kan verwerven tijdens de distillatie. Experimenten op het gebied van gastro-intestinale endoscopie en sport-VQA tonen aan dat LEAML consistent beter presteert dan standaard fine-tuning onder minimale supervisie, wat de effectiviteit van ons voorgestelde LEAML-framework onderstreept.

English

Multimodal Large Language Models (MLLMs) have achieved strong performance on general visual benchmarks but struggle with out-of-distribution (OOD) tasks in specialized domains such as medical imaging, where labeled data is limited and expensive. We introduce LEAML, a label-efficient adaptation framework that leverages both scarce labeled VQA samples and abundant unlabeled images. Our approach generates domain-relevant pseudo question-answer pairs for unlabeled data using a QA generator regularized by caption distillation. Importantly, we selectively update only those neurons most relevant to question-answering, enabling the QA Generator to efficiently acquire domain-specific knowledge during distillation. Experiments on gastrointestinal endoscopy and sports VQA demonstrate that LEAML consistently outperforms standard fine-tuning under minimal supervision, highlighting the effectiveness of our proposed LEAML framework.

LEAML: Label-efficiënte aanpassing aan visuele taken buiten de distributie voor multimodale grote taalmodellen

LEAML: Label-Efficient Adaptation to Out-of-Distribution Visual Tasks for Multimodal Large Language Models

Samenvatting

Support