ChatPaper.aiChatPaper

VPA: Adaptação Completa de Prompts Visuais em Tempo de Teste

VPA: Fully Test-Time Visual Prompt Adaptation

September 26, 2023
Autores: Jiachen Sun, Mark Ibrahim, Melissa Hall, Ivan Evtimov, Z. Morley Mao, Cristian Canton Ferrer, Caner Hazirbas
cs.AI

Resumo

A sintonia de prompts textuais tem demonstrado melhorias significativas de desempenho na adaptação de modelos de processamento de linguagem natural para uma variedade de tarefas subsequentes, tratando prompts projetados manualmente como parâmetros treináveis. Inspirados pelo sucesso dos prompts textuais, vários estudos investigaram a eficácia da sintonia de prompts visuais. Neste trabalho, apresentamos a Adaptação de Prompt Visual (VPA), o primeiro framework que generaliza o prompting visual com adaptação em tempo de teste. A VPA introduz um pequeno número de tokens aprendíveis, permitindo uma adaptação totalmente eficiente em termos de armazenamento e em tempo de teste, sem a necessidade de informações do domínio de origem. Examinamos nosso design de VPA em diversos cenários de adaptação, abrangendo adaptação de imagem única, imagens em lote e adaptação com pseudo-rótulos. Avaliamos a VPA em múltiplas tarefas, incluindo generalização fora da distribuição (OOD), robustez a corrupções e adaptação de domínio. Resultados experimentais revelam que a VPA melhora efetivamente a generalização OOD em 3,3% em vários modelos, superando abordagens anteriores de tempo de teste. Além disso, mostramos que a VPA aumenta a robustez a corrupções em 6,5% em comparação com baselines fortes. Por fim, demonstramos que a VPA também impulsiona o desempenho de adaptação de domínio em 5,2% relativamente. Nossa VPA também exibe marcada eficácia na melhoria da robustez do reconhecimento zero-shot para modelos de visão e linguagem.
English
Textual prompt tuning has demonstrated significant performance improvements in adapting natural language processing models to a variety of downstream tasks by treating hand-engineered prompts as trainable parameters. Inspired by the success of textual prompting, several studies have investigated the efficacy of visual prompt tuning. In this work, we present Visual Prompt Adaptation (VPA), the first framework that generalizes visual prompting with test-time adaptation. VPA introduces a small number of learnable tokens, enabling fully test-time and storage-efficient adaptation without necessitating source-domain information. We examine our VPA design under diverse adaptation settings, encompassing single-image, batched-image, and pseudo-label adaptation. We evaluate VPA on multiple tasks, including out-of-distribution (OOD) generalization, corruption robustness, and domain adaptation. Experimental results reveal that VPA effectively enhances OOD generalization by 3.3% across various models, surpassing previous test-time approaches. Furthermore, we show that VPA improves corruption robustness by 6.5% compared to strong baselines. Finally, we demonstrate that VPA also boosts domain adaptation performance by relatively 5.2%. Our VPA also exhibits marked effectiveness in improving the robustness of zero-shot recognition for vision-language models.
PDF51February 8, 2026