VPA: Полностью адаптируемые визуальные промпты в тестовое время
VPA: Fully Test-Time Visual Prompt Adaptation
September 26, 2023
Авторы: Jiachen Sun, Mark Ibrahim, Melissa Hall, Ivan Evtimov, Z. Morley Mao, Cristian Canton Ferrer, Caner Hazirbas
cs.AI
Аннотация
Настройка текстовых подсказок (textual prompt tuning) продемонстрировала значительное улучшение производительности при адаптации моделей обработки естественного языка к различным задачам за счет использования ручных подсказок в качестве обучаемых параметров. Вдохновленные успехом текстовых подсказок, несколько исследований изучили эффективность настройки визуальных подсказок. В данной работе мы представляем Visual Prompt Adaptation (VPA) — первую структуру, которая обобщает визуальные подсказки с адаптацией во время тестирования. VPA вводит небольшое количество обучаемых токенов, что позволяет осуществлять полностью адаптацию во время тестирования с высокой эффективностью хранения данных без необходимости информации из исходного домена. Мы исследуем нашу структуру VPA в различных условиях адаптации, включая адаптацию для одного изображения, пакетной обработки изображений и адаптацию с использованием псевдометок. Мы оцениваем VPA на множестве задач, включая обобщение на данных вне распределения (out-of-distribution, OOD), устойчивость к искажениям и адаптацию к домену. Экспериментальные результаты показывают, что VPA эффективно улучшает обобщение OOD на 3,3% для различных моделей, превосходя предыдущие подходы, применяемые во время тестирования. Кроме того, мы показываем, что VPA повышает устойчивость к искажениям на 6,5% по сравнению с сильными базовыми методами. Наконец, мы демонстрируем, что VPA также увеличивает производительность адаптации к домену на относительно 5,2%. Наша структура VPA также демонстрирует заметную эффективность в повышении устойчивости моделей распознавания с нулевым обучением для моделей, работающих с визуальными и текстовыми данными.
English
Textual prompt tuning has demonstrated significant performance improvements
in adapting natural language processing models to a variety of downstream tasks
by treating hand-engineered prompts as trainable parameters. Inspired by the
success of textual prompting, several studies have investigated the efficacy of
visual prompt tuning. In this work, we present Visual Prompt Adaptation (VPA),
the first framework that generalizes visual prompting with test-time
adaptation. VPA introduces a small number of learnable tokens, enabling fully
test-time and storage-efficient adaptation without necessitating source-domain
information. We examine our VPA design under diverse adaptation settings,
encompassing single-image, batched-image, and pseudo-label adaptation. We
evaluate VPA on multiple tasks, including out-of-distribution (OOD)
generalization, corruption robustness, and domain adaptation. Experimental
results reveal that VPA effectively enhances OOD generalization by 3.3% across
various models, surpassing previous test-time approaches. Furthermore, we show
that VPA improves corruption robustness by 6.5% compared to strong baselines.
Finally, we demonstrate that VPA also boosts domain adaptation performance by
relatively 5.2%. Our VPA also exhibits marked effectiveness in improving the
robustness of zero-shot recognition for vision-language models.Summary
AI-Generated Summary