Distillation de prompts méta-adaptative pour le question-réponse visuel en few-shot
Meta-Adaptive Prompt Distillation for Few-Shot Visual Question Answering
June 7, 2025
Auteurs: Akash Gupta, Amos Storkey, Mirella Lapata
cs.AI
Résumé
Les grands modèles multimodaux (LMM) s'appuient souvent sur l'apprentissage en contexte (ICL) pour accomplir de nouvelles tâches avec un minimum de supervision. Cependant, les performances de l'ICL, en particulier pour les LMM plus petits, sont incohérentes et ne s'améliorent pas toujours de manière monotone avec l'augmentation des exemples. Nous émettons l'hypothèse que cela est dû au fait que le LMM est submergé par les informations supplémentaires présentes dans les embeddings d'images, qui ne sont pas nécessaires pour la tâche en aval. Pour remédier à cela, nous proposons une approche de méta-apprentissage qui offre une alternative pour induire des capacités few-shot dans les LMM, en utilisant un ensemble fixe de prompts souples distillés à partir des caractéristiques d'images pertinentes pour la tâche et pouvant être adaptés au moment du test avec quelques exemples. Pour faciliter cette distillation, nous introduisons un module de mappage d'attention qui peut être facilement intégré à l'architecture populaire LLaVA v1.5 et est appris conjointement avec les prompts souples, permettant l'adaptation des tâches dans les LMM dans des régimes de faible quantité de données avec seulement quelques étapes de gradient. L'évaluation sur le benchmark VL-ICL montre que notre méthode surpasse systématiquement l'ICL et les approches connexes de réglage de prompts, même sous perturbations d'images, améliorant l'induction de tâches et le raisonnement dans les tâches de question-réponse visuelle.
English
Large Multimodal Models (LMMs) often rely on in-context learning (ICL) to
perform new tasks with minimal supervision. However, ICL performance,
especially in smaller LMMs, is inconsistent and does not always improve
monotonically with increasing examples. We hypothesize that this occurs due to
the LMM being overwhelmed by additional information present in the image
embeddings, which is not required for the downstream task. To address this, we
propose a meta-learning approach that provides an alternative for inducing
few-shot capabilities in LMMs, using a fixed set of soft prompts that are
distilled from task-relevant image features and can be adapted at test time
using a few examples. To facilitate this distillation, we introduce an
attention-mapper module that can be easily integrated with the popular LLaVA
v1.5 architecture and is jointly learned with soft prompts, enabling task
adaptation in LMMs under low-data regimes with just a few gradient steps.
Evaluation on the VL-ICL Bench shows that our method consistently outperforms
ICL and related prompt-tuning approaches, even under image perturbations,
improving task induction and reasoning across visual question answering tasks.