ChatPaper.aiChatPaper

LEAML: Эффективная адаптация с ограниченным количеством меток к задачам визуального анализа вне распределения для мультимодальных больших языковых моделей

LEAML: Label-Efficient Adaptation to Out-of-Distribution Visual Tasks for Multimodal Large Language Models

October 3, 2025
Авторы: Ci-Siang Lin, Min-Hung Chen, Yu-Yang Sheng, Yu-Chiang Frank Wang
cs.AI

Аннотация

Мультимодальные крупные языковые модели (MLLMs) демонстрируют высокие результаты на общих визуальных тестах, однако испытывают трудности с задачами, выходящими за пределы распределения данных (OOD), в специализированных областях, таких как медицинская визуализация, где размеченные данные ограничены и дорогостоящи. Мы представляем LEAML — фреймворк для адаптации с эффективным использованием меток, который задействует как редкие размеченные примеры визуальных вопросов и ответов (VQA), так и многочисленные неразмеченные изображения. Наш подход генерирует псевдопары вопрос-ответ, релевантные для конкретной области, на основе неразмеченных данных с использованием генератора вопросов и ответов, регуляризованного дистилляцией подписей. Важно отметить, что мы выборочно обновляем только те нейроны, которые наиболее важны для задачи вопросов и ответов, что позволяет генератору эффективно приобретать доменно-специфические знания в процессе дистилляции. Эксперименты на данных гастроэнтерологической эндоскопии и спортивной VQA показывают, что LEAML стабильно превосходит стандартную тонкую настройку при минимальном контроле, подчеркивая эффективность предложенного нами фреймворка LEAML.
English
Multimodal Large Language Models (MLLMs) have achieved strong performance on general visual benchmarks but struggle with out-of-distribution (OOD) tasks in specialized domains such as medical imaging, where labeled data is limited and expensive. We introduce LEAML, a label-efficient adaptation framework that leverages both scarce labeled VQA samples and abundant unlabeled images. Our approach generates domain-relevant pseudo question-answer pairs for unlabeled data using a QA generator regularized by caption distillation. Importantly, we selectively update only those neurons most relevant to question-answering, enabling the QA Generator to efficiently acquire domain-specific knowledge during distillation. Experiments on gastrointestinal endoscopy and sports VQA demonstrate that LEAML consistently outperforms standard fine-tuning under minimal supervision, highlighting the effectiveness of our proposed LEAML framework.
PDF12October 6, 2025