ChatPaper.aiChatPaper

LEAML: Adaptación Eficiente en Etiquetas para Tareas Visuales Fuera de Distribución en Modelos de Lenguaje Multimodales de Gran Escala

LEAML: Label-Efficient Adaptation to Out-of-Distribution Visual Tasks for Multimodal Large Language Models

October 3, 2025
Autores: Ci-Siang Lin, Min-Hung Chen, Yu-Yang Sheng, Yu-Chiang Frank Wang
cs.AI

Resumen

Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han logrado un rendimiento sólido en benchmarks visuales generales, pero enfrentan dificultades con tareas fuera de distribución (OOD, por sus siglas en inglés) en dominios especializados como las imágenes médicas, donde los datos etiquetados son limitados y costosos. Presentamos LEAML, un marco de adaptación eficiente en etiquetas que aprovecha tanto muestras escasas de VQA (Visual Question Answering) etiquetadas como imágenes no etiquetadas abundantes. Nuestro enfoque genera pares de preguntas-respuestas pseudo-relevantes para datos no etiquetados utilizando un generador de preguntas y respuestas regularizado mediante destilación de descripciones. Es importante destacar que actualizamos selectivamente solo aquellas neuronas más relevantes para la tarea de preguntas y respuestas, permitiendo que el Generador de Preguntas y Respuestas adquiera eficientemente conocimiento específico del dominio durante la destilación. Los experimentos en endoscopía gastrointestinal y VQA deportiva demuestran que LEAML supera consistentemente el ajuste fino estándar bajo supervisión mínima, resaltando la efectividad de nuestro marco LEAML propuesto.
English
Multimodal Large Language Models (MLLMs) have achieved strong performance on general visual benchmarks but struggle with out-of-distribution (OOD) tasks in specialized domains such as medical imaging, where labeled data is limited and expensive. We introduce LEAML, a label-efficient adaptation framework that leverages both scarce labeled VQA samples and abundant unlabeled images. Our approach generates domain-relevant pseudo question-answer pairs for unlabeled data using a QA generator regularized by caption distillation. Importantly, we selectively update only those neurons most relevant to question-answering, enabling the QA Generator to efficiently acquire domain-specific knowledge during distillation. Experiments on gastrointestinal endoscopy and sports VQA demonstrate that LEAML consistently outperforms standard fine-tuning under minimal supervision, highlighting the effectiveness of our proposed LEAML framework.
PDF12October 6, 2025