VPA: Vollständige Testzeit-Visual-Prompt-Anpassung
VPA: Fully Test-Time Visual Prompt Adaptation
September 26, 2023
Autoren: Jiachen Sun, Mark Ibrahim, Melissa Hall, Ivan Evtimov, Z. Morley Mao, Cristian Canton Ferrer, Caner Hazirbas
cs.AI
Zusammenfassung
Textual Prompt Tuning hat signifikante Leistungsverbesserungen bei der Anpassung von Modellen der natürlichen Sprachverarbeitung an eine Vielzahl von Downstream-Aufgaben gezeigt, indem handgefertigte Prompts als trainierbare Parameter behandelt werden. Inspiriert vom Erfolg des Textual Promptings haben mehrere Studien die Wirksamkeit von Visual Prompt Tuning untersucht. In dieser Arbeit präsentieren wir Visual Prompt Adaptation (VPA), das erste Framework, das visuelles Prompting mit Testzeit-Anpassung verallgemeinert. VPA führt eine kleine Anzahl von lernbaren Tokens ein, die eine vollständige Testzeit-Anpassung und speichereffiziente Anpassung ermöglichen, ohne Informationen aus dem Quellbereich zu benötigen. Wir untersuchen unser VPA-Design unter verschiedenen Anpassungsszenarien, darunter Einzelbild-, Batch-Bild- und Pseudolabel-Anpassung. Wir evaluieren VPA anhand mehrerer Aufgaben, einschließlich Out-of-Distribution (OOD)-Generalisation, Robustheit gegenüber Korruptionen und Domain Adaptation. Experimentelle Ergebnisse zeigen, dass VPA die OOD-Generalisation effektiv um 3,3 % über verschiedene Modelle hinweg verbessert und damit bisherige Testzeit-Ansätze übertrifft. Darüber hinaus zeigen wir, dass VPA die Robustheit gegenüber Korruptionen um 6,5 % im Vergleich zu starken Baselines steigert. Schließlich demonstrieren wir, dass VPA auch die Leistung bei der Domain Adaptation relativ um 5,2 % verbessert. Unser VPA zeigt auch eine deutliche Wirksamkeit bei der Verbesserung der Robustheit von Zero-Shot-Erkennung für Vision-Language-Modelle.
English
Textual prompt tuning has demonstrated significant performance improvements
in adapting natural language processing models to a variety of downstream tasks
by treating hand-engineered prompts as trainable parameters. Inspired by the
success of textual prompting, several studies have investigated the efficacy of
visual prompt tuning. In this work, we present Visual Prompt Adaptation (VPA),
the first framework that generalizes visual prompting with test-time
adaptation. VPA introduces a small number of learnable tokens, enabling fully
test-time and storage-efficient adaptation without necessitating source-domain
information. We examine our VPA design under diverse adaptation settings,
encompassing single-image, batched-image, and pseudo-label adaptation. We
evaluate VPA on multiple tasks, including out-of-distribution (OOD)
generalization, corruption robustness, and domain adaptation. Experimental
results reveal that VPA effectively enhances OOD generalization by 3.3% across
various models, surpassing previous test-time approaches. Furthermore, we show
that VPA improves corruption robustness by 6.5% compared to strong baselines.
Finally, we demonstrate that VPA also boosts domain adaptation performance by
relatively 5.2%. Our VPA also exhibits marked effectiveness in improving the
robustness of zero-shot recognition for vision-language models.Summary
AI-Generated Summary