Meta-Adaptive Prompt-Destillation für Few-Shot Visuelle Frage-Antwort-Systeme
Meta-Adaptive Prompt Distillation for Few-Shot Visual Question Answering
June 7, 2025
Autoren: Akash Gupta, Amos Storkey, Mirella Lapata
cs.AI
Zusammenfassung
Große multimodale Modelle (LMMs) verlassen sich oft auf In-Context-Learning (ICL), um neue Aufgaben mit minimaler Überwachung auszuführen. Die ICL-Leistung, insbesondere bei kleineren LMMs, ist jedoch inkonsistent und verbessert sich nicht immer monoton mit zunehmenden Beispielen. Wir vermuten, dass dies darauf zurückzuführen ist, dass das LMM durch zusätzliche Informationen in den Bild-Einbettungen überfordert wird, die für die nachgelagerte Aufgabe nicht erforderlich sind. Um dies zu beheben, schlagen wir einen Meta-Learning-Ansatz vor, der eine Alternative zur Induktion von Few-Shot-Fähigkeiten in LMMs bietet, indem ein fester Satz von Soft Prompts verwendet wird, die aus aufgabenrelevanten Bildmerkmalen destilliert werden und zur Testzeit mit wenigen Beispielen angepasst werden können. Um diese Destillation zu erleichtern, führen wir ein Attention-Mapper-Modul ein, das einfach in die beliebte LLaVA v1.5-Architektur integriert werden kann und gemeinsam mit den Soft Prompts gelernt wird, wodurch eine Aufgabenanpassung in LMMs unter Low-Data-Bedingungen mit nur wenigen Gradientenschritten ermöglicht wird. Die Auswertung auf dem VL-ICL-Bench zeigt, dass unsere Methode ICL und verwandte Prompt-Tuning-Ansätze konsistent übertrifft, selbst bei Bildstörungen, und die Aufgabeninduktion und das logische Denken bei visuellen Frage-Antwort-Aufgaben verbessert.
English
Large Multimodal Models (LMMs) often rely on in-context learning (ICL) to
perform new tasks with minimal supervision. However, ICL performance,
especially in smaller LMMs, is inconsistent and does not always improve
monotonically with increasing examples. We hypothesize that this occurs due to
the LMM being overwhelmed by additional information present in the image
embeddings, which is not required for the downstream task. To address this, we
propose a meta-learning approach that provides an alternative for inducing
few-shot capabilities in LMMs, using a fixed set of soft prompts that are
distilled from task-relevant image features and can be adapted at test time
using a few examples. To facilitate this distillation, we introduce an
attention-mapper module that can be easily integrated with the popular LLaVA
v1.5 architecture and is jointly learned with soft prompts, enabling task
adaptation in LMMs under low-data regimes with just a few gradient steps.
Evaluation on the VL-ICL Bench shows that our method consistently outperforms
ICL and related prompt-tuning approaches, even under image perturbations,
improving task induction and reasoning across visual question answering tasks.