ChatPaper.aiChatPaper

LEAML : Adaptation Économe en Étiquettes aux Tâches Visuelles Hors Distribution pour les Modèles de Langage Multimodaux de Grande Taille

LEAML: Label-Efficient Adaptation to Out-of-Distribution Visual Tasks for Multimodal Large Language Models

October 3, 2025
papers.authors: Ci-Siang Lin, Min-Hung Chen, Yu-Yang Sheng, Yu-Chiang Frank Wang
cs.AI

papers.abstract

Les modèles de langage multimodaux de grande envergure (MLLMs) ont obtenu des performances solides sur des benchmarks visuels généraux, mais rencontrent des difficultés avec les tâches hors distribution (OOD) dans des domaines spécialisés tels que l'imagerie médicale, où les données étiquetées sont limitées et coûteuses. Nous présentons LEAML, un cadre d'adaptation efficace en termes d'étiquettes qui exploite à la fois des échantillons VQA étiquetés rares et des images non étiquetées abondantes. Notre approche génère des paires de questions-réponses pseudo-pertinentes pour les données non étiquetées en utilisant un générateur de questions-réponses régularisé par une distillation de légendes. De manière cruciale, nous mettons à jour de manière sélective uniquement les neurones les plus pertinents pour la réponse aux questions, permettant ainsi au générateur de questions-réponses d'acquérir efficacement des connaissances spécifiques au domaine lors de la distillation. Les expériences sur l'endoscopie gastro-intestinale et les questions-réponses sportives démontrent que LEAML surpasse systématiquement l'ajustement fin standard sous supervision minimale, mettant en évidence l'efficacité de notre cadre LEAML proposé.
English
Multimodal Large Language Models (MLLMs) have achieved strong performance on general visual benchmarks but struggle with out-of-distribution (OOD) tasks in specialized domains such as medical imaging, where labeled data is limited and expensive. We introduce LEAML, a label-efficient adaptation framework that leverages both scarce labeled VQA samples and abundant unlabeled images. Our approach generates domain-relevant pseudo question-answer pairs for unlabeled data using a QA generator regularized by caption distillation. Importantly, we selectively update only those neurons most relevant to question-answering, enabling the QA Generator to efficiently acquire domain-specific knowledge during distillation. Experiments on gastrointestinal endoscopy and sports VQA demonstrate that LEAML consistently outperforms standard fine-tuning under minimal supervision, highlighting the effectiveness of our proposed LEAML framework.
PDF12October 6, 2025