Meta-Adaptive Prompt-Destillation für Few-Shot Visuelle Frage-Antwort-Systeme

papers.abstract

Große multimodale Modelle (LMMs) verlassen sich oft auf In-Context-Learning (ICL), um neue Aufgaben mit minimaler Überwachung auszuführen. Die ICL-Leistung, insbesondere bei kleineren LMMs, ist jedoch inkonsistent und verbessert sich nicht immer monoton mit zunehmenden Beispielen. Wir vermuten, dass dies darauf zurückzuführen ist, dass das LMM durch zusätzliche Informationen in den Bild-Einbettungen überfordert wird, die für die nachgelagerte Aufgabe nicht erforderlich sind. Um dies zu beheben, schlagen wir einen Meta-Learning-Ansatz vor, der eine Alternative zur Induktion von Few-Shot-Fähigkeiten in LMMs bietet, indem ein fester Satz von Soft Prompts verwendet wird, die aus aufgabenrelevanten Bildmerkmalen destilliert werden und zur Testzeit mit wenigen Beispielen angepasst werden können. Um diese Destillation zu erleichtern, führen wir ein Attention-Mapper-Modul ein, das einfach in die beliebte LLaVA v1.5-Architektur integriert werden kann und gemeinsam mit den Soft Prompts gelernt wird, wodurch eine Aufgabenanpassung in LMMs unter Low-Data-Bedingungen mit nur wenigen Gradientenschritten ermöglicht wird. Die Auswertung auf dem VL-ICL-Bench zeigt, dass unsere Methode ICL und verwandte Prompt-Tuning-Ansätze konsistent übertrifft, selbst bei Bildstörungen, und die Aufgabeninduktion und das logische Denken bei visuellen Frage-Antwort-Aufgaben verbessert.

English

Large Multimodal Models (LMMs) often rely on in-context learning (ICL) to perform new tasks with minimal supervision. However, ICL performance, especially in smaller LMMs, is inconsistent and does not always improve monotonically with increasing examples. We hypothesize that this occurs due to the LMM being overwhelmed by additional information present in the image embeddings, which is not required for the downstream task. To address this, we propose a meta-learning approach that provides an alternative for inducing few-shot capabilities in LMMs, using a fixed set of soft prompts that are distilled from task-relevant image features and can be adapted at test time using a few examples. To facilitate this distillation, we introduce an attention-mapper module that can be easily integrated with the popular LLaVA v1.5 architecture and is jointly learned with soft prompts, enabling task adaptation in LMMs under low-data regimes with just a few gradient steps. Evaluation on the VL-ICL Bench shows that our method consistently outperforms ICL and related prompt-tuning approaches, even under image perturbations, improving task induction and reasoning across visual question answering tasks.

Meta-Adaptive Prompt-Destillation für Few-Shot Visuelle Frage-Antwort-Systeme

Meta-Adaptive Prompt Distillation for Few-Shot Visual Question Answering

papers.abstract

Support