VPA: Adattamento Completo dei Prompt Visivi in Tempo Reale
VPA: Fully Test-Time Visual Prompt Adaptation
September 26, 2023
Autori: Jiachen Sun, Mark Ibrahim, Melissa Hall, Ivan Evtimov, Z. Morley Mao, Cristian Canton Ferrer, Caner Hazirbas
cs.AI
Abstract
Il tuning dei prompt testuali ha dimostrato significativi miglioramenti delle prestazioni nell'adattamento dei modelli di elaborazione del linguaggio naturale a una varietà di task downstream, trattando i prompt progettati manualmente come parametri addestrabili. Ispirati dal successo dei prompt testuali, diversi studi hanno indagato l'efficacia del tuning dei prompt visivi. In questo lavoro, presentiamo Visual Prompt Adaptation (VPA), il primo framework che generalizza il prompting visivo con l'adattamento in fase di test. VPA introduce un piccolo numero di token apprendibili, consentendo un adattamento completamente in fase di test e efficiente in termini di memorizzazione senza necessitare di informazioni sul dominio di origine. Esaminiamo il nostro design VPA in diversi contesti di adattamento, comprendendo l'adattamento su singola immagine, su batch di immagini e con pseudo-label. Valutiamo VPA su più task, tra cui la generalizzazione out-of-distribution (OOD), la robustezza alla corruzione e l'adattamento di dominio. I risultati sperimentali rivelano che VPA migliora efficacemente la generalizzazione OOD del 3,3% su vari modelli, superando approcci precedenti di test-time. Inoltre, mostriamo che VPA migliora la robustezza alla corruzione del 6,5% rispetto a baseline forti. Infine, dimostriamo che VPA aumenta anche le prestazioni di adattamento di dominio relativamente del 5,2%. Il nostro VPA mostra inoltre una marcata efficacia nel migliorare la robustezza del riconoscimento zero-shot per modelli visione-linguaggio.
English
Textual prompt tuning has demonstrated significant performance improvements
in adapting natural language processing models to a variety of downstream tasks
by treating hand-engineered prompts as trainable parameters. Inspired by the
success of textual prompting, several studies have investigated the efficacy of
visual prompt tuning. In this work, we present Visual Prompt Adaptation (VPA),
the first framework that generalizes visual prompting with test-time
adaptation. VPA introduces a small number of learnable tokens, enabling fully
test-time and storage-efficient adaptation without necessitating source-domain
information. We examine our VPA design under diverse adaptation settings,
encompassing single-image, batched-image, and pseudo-label adaptation. We
evaluate VPA on multiple tasks, including out-of-distribution (OOD)
generalization, corruption robustness, and domain adaptation. Experimental
results reveal that VPA effectively enhances OOD generalization by 3.3% across
various models, surpassing previous test-time approaches. Furthermore, we show
that VPA improves corruption robustness by 6.5% compared to strong baselines.
Finally, we demonstrate that VPA also boosts domain adaptation performance by
relatively 5.2%. Our VPA also exhibits marked effectiveness in improving the
robustness of zero-shot recognition for vision-language models.