VPA : Adaptation de Prompt Visuel Entièrement en Temps Réel
VPA: Fully Test-Time Visual Prompt Adaptation
September 26, 2023
Auteurs: Jiachen Sun, Mark Ibrahim, Melissa Hall, Ivan Evtimov, Z. Morley Mao, Cristian Canton Ferrer, Caner Hazirbas
cs.AI
Résumé
L'ajustement par prompt textuel a démontré des améliorations significatives des performances dans l'adaptation des modèles de traitement du langage naturel à diverses tâches en aval, en traitant les prompts conçus manuellement comme des paramètres entraînables. Inspirés par le succès des prompts textuels, plusieurs études ont exploré l'efficacité de l'ajustement par prompt visuel. Dans ce travail, nous présentons l'Adaptation par Prompt Visuel (VPA), le premier cadre généralisant l'utilisation des prompts visuels avec une adaptation au moment du test. VPA introduit un petit nombre de jetons apprenables, permettant une adaptation entièrement au moment du test et efficace en termes de stockage, sans nécessiter d'informations sur le domaine source. Nous examinons notre conception de VPA dans divers contextes d'adaptation, incluant l'adaptation sur une seule image, sur un lot d'images, et par pseudo-étiquettes. Nous évaluons VPA sur plusieurs tâches, incluant la généralisation hors distribution (OOD), la robustesse face aux corruptions, et l'adaptation de domaine. Les résultats expérimentaux révèlent que VPA améliore efficacement la généralisation OOD de 3,3 % à travers divers modèles, surpassant les approches précédentes au moment du test. De plus, nous montrons que VPA améliore la robustesse face aux corruptions de 6,5 % par rapport à des bases de référence solides. Enfin, nous démontrons que VPA améliore également les performances d'adaptation de domaine de 5,2 % de manière relative. Notre VPA montre également une efficacité marquée dans l'amélioration de la robustesse de la reconnaissance zero-shot pour les modèles vision-langage.
English
Textual prompt tuning has demonstrated significant performance improvements
in adapting natural language processing models to a variety of downstream tasks
by treating hand-engineered prompts as trainable parameters. Inspired by the
success of textual prompting, several studies have investigated the efficacy of
visual prompt tuning. In this work, we present Visual Prompt Adaptation (VPA),
the first framework that generalizes visual prompting with test-time
adaptation. VPA introduces a small number of learnable tokens, enabling fully
test-time and storage-efficient adaptation without necessitating source-domain
information. We examine our VPA design under diverse adaptation settings,
encompassing single-image, batched-image, and pseudo-label adaptation. We
evaluate VPA on multiple tasks, including out-of-distribution (OOD)
generalization, corruption robustness, and domain adaptation. Experimental
results reveal that VPA effectively enhances OOD generalization by 3.3% across
various models, surpassing previous test-time approaches. Furthermore, we show
that VPA improves corruption robustness by 6.5% compared to strong baselines.
Finally, we demonstrate that VPA also boosts domain adaptation performance by
relatively 5.2%. Our VPA also exhibits marked effectiveness in improving the
robustness of zero-shot recognition for vision-language models.Summary
AI-Generated Summary