VPA: Volledige Testtijd Visuele Prompt Aanpassing
VPA: Fully Test-Time Visual Prompt Adaptation
September 26, 2023
Auteurs: Jiachen Sun, Mark Ibrahim, Melissa Hall, Ivan Evtimov, Z. Morley Mao, Cristian Canton Ferrer, Caner Hazirbas
cs.AI
Samenvatting
Textuele prompt-tuning heeft aanzienlijke prestatieverbeteringen aangetoond bij het aanpassen van natuurlijke-taalverwerkingsmodellen aan een verscheidenheid van downstream taken, door handmatig ontworpen prompts als trainbare parameters te behandelen. Geïnspireerd door het succes van textuele prompting, hebben verschillende studies de effectiviteit van visuele prompt-tuning onderzocht. In dit werk presenteren we Visual Prompt Adaptation (VPA), het eerste raamwerk dat visuele prompting generaliseert met test-time aanpassing. VPA introduceert een klein aantal leerbare tokens, waardoor volledige test-time en opslag-efficiënte aanpassing mogelijk wordt zonder informatie uit het brondomein nodig te hebben. We onderzoeken ons VPA-ontwerp onder diverse aanpassingsinstellingen, waaronder aanpassing van enkele afbeeldingen, batchgewijze afbeeldingen en pseudo-label aanpassing. We evalueren VPA op meerdere taken, waaronder out-of-distribution (OOD) generalisatie, robuustheid tegen corruptie en domeinaanpassing. Experimentele resultaten laten zien dat VPA de OOD-generalisatie effectief verbetert met 3,3% over verschillende modellen, wat eerdere test-time benaderingen overtreft. Bovendien tonen we aan dat VPA de robuustheid tegen corruptie met 6,5% verbetert in vergelijking met sterke baseline-methoden. Ten slotte demonstreren we dat VPA ook de prestaties van domeinaanpassing relatief met 5,2% verhoogt. Onze VPA toont ook een opmerkelijke effectiviteit in het verbeteren van de robuustheid van zero-shot herkenning voor visie-taalmodellen.
English
Textual prompt tuning has demonstrated significant performance improvements
in adapting natural language processing models to a variety of downstream tasks
by treating hand-engineered prompts as trainable parameters. Inspired by the
success of textual prompting, several studies have investigated the efficacy of
visual prompt tuning. In this work, we present Visual Prompt Adaptation (VPA),
the first framework that generalizes visual prompting with test-time
adaptation. VPA introduces a small number of learnable tokens, enabling fully
test-time and storage-efficient adaptation without necessitating source-domain
information. We examine our VPA design under diverse adaptation settings,
encompassing single-image, batched-image, and pseudo-label adaptation. We
evaluate VPA on multiple tasks, including out-of-distribution (OOD)
generalization, corruption robustness, and domain adaptation. Experimental
results reveal that VPA effectively enhances OOD generalization by 3.3% across
various models, surpassing previous test-time approaches. Furthermore, we show
that VPA improves corruption robustness by 6.5% compared to strong baselines.
Finally, we demonstrate that VPA also boosts domain adaptation performance by
relatively 5.2%. Our VPA also exhibits marked effectiveness in improving the
robustness of zero-shot recognition for vision-language models.