VPA: Adaptação Completa de Prompts Visuais em Tempo de Teste
VPA: Fully Test-Time Visual Prompt Adaptation
September 26, 2023
Autores: Jiachen Sun, Mark Ibrahim, Melissa Hall, Ivan Evtimov, Z. Morley Mao, Cristian Canton Ferrer, Caner Hazirbas
cs.AI
Resumo
A sintonia de prompts textuais tem demonstrado melhorias significativas de desempenho na adaptação de modelos de processamento de linguagem natural para uma variedade de tarefas subsequentes, tratando prompts projetados manualmente como parâmetros treináveis. Inspirados pelo sucesso dos prompts textuais, vários estudos investigaram a eficácia da sintonia de prompts visuais. Neste trabalho, apresentamos a Adaptação de Prompt Visual (VPA), o primeiro framework que generaliza o prompting visual com adaptação em tempo de teste. A VPA introduz um pequeno número de tokens aprendíveis, permitindo uma adaptação totalmente eficiente em termos de armazenamento e em tempo de teste, sem a necessidade de informações do domínio de origem. Examinamos nosso design de VPA em diversos cenários de adaptação, abrangendo adaptação de imagem única, imagens em lote e adaptação com pseudo-rótulos. Avaliamos a VPA em múltiplas tarefas, incluindo generalização fora da distribuição (OOD), robustez a corrupções e adaptação de domínio. Resultados experimentais revelam que a VPA melhora efetivamente a generalização OOD em 3,3% em vários modelos, superando abordagens anteriores de tempo de teste. Além disso, mostramos que a VPA aumenta a robustez a corrupções em 6,5% em comparação com baselines fortes. Por fim, demonstramos que a VPA também impulsiona o desempenho de adaptação de domínio em 5,2% relativamente. Nossa VPA também exibe marcada eficácia na melhoria da robustez do reconhecimento zero-shot para modelos de visão e linguagem.
English
Textual prompt tuning has demonstrated significant performance improvements
in adapting natural language processing models to a variety of downstream tasks
by treating hand-engineered prompts as trainable parameters. Inspired by the
success of textual prompting, several studies have investigated the efficacy of
visual prompt tuning. In this work, we present Visual Prompt Adaptation (VPA),
the first framework that generalizes visual prompting with test-time
adaptation. VPA introduces a small number of learnable tokens, enabling fully
test-time and storage-efficient adaptation without necessitating source-domain
information. We examine our VPA design under diverse adaptation settings,
encompassing single-image, batched-image, and pseudo-label adaptation. We
evaluate VPA on multiple tasks, including out-of-distribution (OOD)
generalization, corruption robustness, and domain adaptation. Experimental
results reveal that VPA effectively enhances OOD generalization by 3.3% across
various models, surpassing previous test-time approaches. Furthermore, we show
that VPA improves corruption robustness by 6.5% compared to strong baselines.
Finally, we demonstrate that VPA also boosts domain adaptation performance by
relatively 5.2%. Our VPA also exhibits marked effectiveness in improving the
robustness of zero-shot recognition for vision-language models.