VPA: Adaptación Completa de Prompts Visuales en Tiempo de Prueba

VPA: Fully Test-Time Visual Prompt Adaptation

September 26, 2023
Autores: Jiachen Sun, Mark Ibrahim, Melissa Hall, Ivan Evtimov, Z. Morley Mao, Cristian Canton Ferrer, Caner Hazirbas
cs.AI

Resumen

El ajuste de indicaciones textuales ha demostrado mejoras significativas en el rendimiento al adaptar modelos de procesamiento de lenguaje natural a una variedad de tareas posteriores, tratando las indicaciones diseñadas manualmente como parámetros entrenables. Inspirados por el éxito de las indicaciones textuales, varios estudios han investigado la eficacia del ajuste de indicaciones visuales. En este trabajo, presentamos Adaptación de Indicaciones Visuales (VPA, por sus siglas en inglés), el primer marco que generaliza las indicaciones visuales con adaptación en tiempo de prueba. VPA introduce un pequeño número de tokens entrenables, permitiendo una adaptación completamente en tiempo de prueba y eficiente en almacenamiento, sin necesidad de información del dominio de origen. Examinamos nuestro diseño de VPA bajo diversos escenarios de adaptación, incluyendo adaptación de imagen única, imágenes en lote y adaptación con pseudoetiquetas. Evaluamos VPA en múltiples tareas, como generalización fuera de distribución (OOD), robustez frente a corrupciones y adaptación de dominio. Los resultados experimentales revelan que VPA mejora efectivamente la generalización OOD en un 3.3% en varios modelos, superando enfoques previos de tiempo de prueba. Además, mostramos que VPA mejora la robustez frente a corrupciones en un 6.5% en comparación con líneas base sólidas. Finalmente, demostramos que VPA también aumenta el rendimiento en adaptación de dominio en un 5.2% relativo. Nuestro VPA también exhibe una marcada efectividad al mejorar la robustez del reconocimiento de cero disparos para modelos de visión y lenguaje.
English
Textual prompt tuning has demonstrated significant performance improvements in adapting natural language processing models to a variety of downstream tasks by treating hand-engineered prompts as trainable parameters. Inspired by the success of textual prompting, several studies have investigated the efficacy of visual prompt tuning. In this work, we present Visual Prompt Adaptation (VPA), the first framework that generalizes visual prompting with test-time adaptation. VPA introduces a small number of learnable tokens, enabling fully test-time and storage-efficient adaptation without necessitating source-domain information. We examine our VPA design under diverse adaptation settings, encompassing single-image, batched-image, and pseudo-label adaptation. We evaluate VPA on multiple tasks, including out-of-distribution (OOD) generalization, corruption robustness, and domain adaptation. Experimental results reveal that VPA effectively enhances OOD generalization by 3.3% across various models, surpassing previous test-time approaches. Furthermore, we show that VPA improves corruption robustness by 6.5% compared to strong baselines. Finally, we demonstrate that VPA also boosts domain adaptation performance by relatively 5.2%. Our VPA also exhibits marked effectiveness in improving the robustness of zero-shot recognition for vision-language models.

Summary

AI-Generated Summary

PDF51December 15, 2024