VPA: 완전 테스트 타임 시각적 프롬프트 적응
VPA: Fully Test-Time Visual Prompt Adaptation
September 26, 2023
저자: Jiachen Sun, Mark Ibrahim, Melissa Hall, Ivan Evtimov, Z. Morley Mao, Cristian Canton Ferrer, Caner Hazirbas
cs.AI
초록
텍스트 프롬프트 튜닝은 수작업으로 설계된 프롬프트를 학습 가능한 매개변수로 취급함으로써 다양한 다운스트림 작업에 자연어 처리 모델을 적응시키는 데 있어 상당한 성능 향상을 보여주었습니다. 텍스트 프롬프팅의 성공에 영감을 받아, 여러 연구들이 시각적 프롬프트 튜닝의 효용성을 탐구해 왔습니다. 본 연구에서는 테스트 시간 적응과 함께 시각적 프롬프팅을 일반화하는 최초의 프레임워크인 Visual Prompt Adaptation(VPA)을 제안합니다. VPA는 소수의 학습 가능한 토큰을 도입함으로써 소스 도메인 정보를 필요로 하지 않으면서도 완전한 테스트 시간 및 저장 효율적인 적응을 가능하게 합니다. 우리는 단일 이미지, 배치 이미지, 그리고 의사 레이블 적응을 포함한 다양한 적응 설정 하에서 VPA 설계를 검토합니다. VPA는 분포 외 일반화(OOD), 손상 강건성, 그리고 도메인 적응을 포함한 여러 작업에서 평가됩니다. 실험 결과는 VPA가 다양한 모델에서 OOD 일반화를 3.3% 향상시키며, 이전의 테스트 시간 접근법들을 능가함을 보여줍니다. 또한, VPA는 강력한 베이스라인 대비 손상 강건성을 6.5% 개선함을 보여줍니다. 마지막으로, VPA가 도메인 적응 성능을 상대적으로 5.2% 향상시킴을 입증합니다. 우리의 VPA는 또한 시각-언어 모델의 제로샷 인식 강건성을 개선하는 데 있어 뚜렷한 효과를 보입니다.
English
Textual prompt tuning has demonstrated significant performance improvements
in adapting natural language processing models to a variety of downstream tasks
by treating hand-engineered prompts as trainable parameters. Inspired by the
success of textual prompting, several studies have investigated the efficacy of
visual prompt tuning. In this work, we present Visual Prompt Adaptation (VPA),
the first framework that generalizes visual prompting with test-time
adaptation. VPA introduces a small number of learnable tokens, enabling fully
test-time and storage-efficient adaptation without necessitating source-domain
information. We examine our VPA design under diverse adaptation settings,
encompassing single-image, batched-image, and pseudo-label adaptation. We
evaluate VPA on multiple tasks, including out-of-distribution (OOD)
generalization, corruption robustness, and domain adaptation. Experimental
results reveal that VPA effectively enhances OOD generalization by 3.3% across
various models, surpassing previous test-time approaches. Furthermore, we show
that VPA improves corruption robustness by 6.5% compared to strong baselines.
Finally, we demonstrate that VPA also boosts domain adaptation performance by
relatively 5.2%. Our VPA also exhibits marked effectiveness in improving the
robustness of zero-shot recognition for vision-language models.Summary
AI-Generated Summary