VPA: Adattamento Completo dei Prompt Visivi in Tempo Reale

Abstract

Il tuning dei prompt testuali ha dimostrato significativi miglioramenti delle prestazioni nell'adattamento dei modelli di elaborazione del linguaggio naturale a una varietà di task downstream, trattando i prompt progettati manualmente come parametri addestrabili. Ispirati dal successo dei prompt testuali, diversi studi hanno indagato l'efficacia del tuning dei prompt visivi. In questo lavoro, presentiamo Visual Prompt Adaptation (VPA), il primo framework che generalizza il prompting visivo con l'adattamento in fase di test. VPA introduce un piccolo numero di token apprendibili, consentendo un adattamento completamente in fase di test e efficiente in termini di memorizzazione senza necessitare di informazioni sul dominio di origine. Esaminiamo il nostro design VPA in diversi contesti di adattamento, comprendendo l'adattamento su singola immagine, su batch di immagini e con pseudo-label. Valutiamo VPA su più task, tra cui la generalizzazione out-of-distribution (OOD), la robustezza alla corruzione e l'adattamento di dominio. I risultati sperimentali rivelano che VPA migliora efficacemente la generalizzazione OOD del 3,3% su vari modelli, superando approcci precedenti di test-time. Inoltre, mostriamo che VPA migliora la robustezza alla corruzione del 6,5% rispetto a baseline forti. Infine, dimostriamo che VPA aumenta anche le prestazioni di adattamento di dominio relativamente del 5,2%. Il nostro VPA mostra inoltre una marcata efficacia nel migliorare la robustezza del riconoscimento zero-shot per modelli visione-linguaggio.

English

Textual prompt tuning has demonstrated significant performance improvements in adapting natural language processing models to a variety of downstream tasks by treating hand-engineered prompts as trainable parameters. Inspired by the success of textual prompting, several studies have investigated the efficacy of visual prompt tuning. In this work, we present Visual Prompt Adaptation (VPA), the first framework that generalizes visual prompting with test-time adaptation. VPA introduces a small number of learnable tokens, enabling fully test-time and storage-efficient adaptation without necessitating source-domain information. We examine our VPA design under diverse adaptation settings, encompassing single-image, batched-image, and pseudo-label adaptation. We evaluate VPA on multiple tasks, including out-of-distribution (OOD) generalization, corruption robustness, and domain adaptation. Experimental results reveal that VPA effectively enhances OOD generalization by 3.3% across various models, surpassing previous test-time approaches. Furthermore, we show that VPA improves corruption robustness by 6.5% compared to strong baselines. Finally, we demonstrate that VPA also boosts domain adaptation performance by relatively 5.2%. Our VPA also exhibits marked effectiveness in improving the robustness of zero-shot recognition for vision-language models.

VPA: Adattamento Completo dei Prompt Visivi in Tempo Reale

VPA: Fully Test-Time Visual Prompt Adaptation

Abstract

Support