VPA: 完全テスト時視覚プロンプト適応

VPA: Fully Test-Time Visual Prompt Adaptation

September 26, 2023
著者: Jiachen Sun, Mark Ibrahim, Melissa Hall, Ivan Evtimov, Z. Morley Mao, Cristian Canton Ferrer, Caner Hazirbas
cs.AI

要旨

テキストプロンプトチューニングは、手動で設計されたプロンプトを学習可能なパラメータとして扱うことで、自然言語処理モデルを様々な下流タスクに適応させる際に大幅な性能向上を示してきました。テキストプロンプトの成功に触発され、いくつかの研究では視覚プロンプトチューニングの有効性が調査されています。本研究では、テストタイム適応を用いて視覚プロンプトを一般化する初めてのフレームワークであるVisual Prompt Adaptation (VPA)を提案します。VPAは少数の学習可能なトークンを導入し、ソースドメイン情報を必要とせずに完全なテストタイムかつストレージ効率の高い適応を可能にします。私たちはVPAの設計を、単一画像、バッチ画像、および疑似ラベル適応を含む多様な適応設定で検証しました。VPAを、分布外(OOD)一般化、破損ロバスト性、およびドメイン適応を含む複数のタスクで評価しました。実験結果は、VPAが様々なモデルにわたってOOD一般化を3.3%向上させ、従来のテストタイムアプローチを凌駕することを明らかにしています。さらに、VPAは強力なベースラインと比較して破損ロバスト性を6.5%向上させることを示しました。最後に、VPAがドメイン適応性能を相対的に5.2%向上させることも実証しました。私たちのVPAは、視覚言語モデルのゼロショット認識のロバスト性を向上させる際にも顕著な効果を示しています。
English
Textual prompt tuning has demonstrated significant performance improvements in adapting natural language processing models to a variety of downstream tasks by treating hand-engineered prompts as trainable parameters. Inspired by the success of textual prompting, several studies have investigated the efficacy of visual prompt tuning. In this work, we present Visual Prompt Adaptation (VPA), the first framework that generalizes visual prompting with test-time adaptation. VPA introduces a small number of learnable tokens, enabling fully test-time and storage-efficient adaptation without necessitating source-domain information. We examine our VPA design under diverse adaptation settings, encompassing single-image, batched-image, and pseudo-label adaptation. We evaluate VPA on multiple tasks, including out-of-distribution (OOD) generalization, corruption robustness, and domain adaptation. Experimental results reveal that VPA effectively enhances OOD generalization by 3.3% across various models, surpassing previous test-time approaches. Furthermore, we show that VPA improves corruption robustness by 6.5% compared to strong baselines. Finally, we demonstrate that VPA also boosts domain adaptation performance by relatively 5.2%. Our VPA also exhibits marked effectiveness in improving the robustness of zero-shot recognition for vision-language models.

Summary

AI-Generated Summary

PDF51December 15, 2024