残差プロンプトチューニング:残差再パラメータ化によるプロンプトチューニングの改善
Residual Prompt Tuning: Improving Prompt Tuning with Residual Reparameterization
May 6, 2023
著者: Anastasia Razdaibiedina, Yuning Mao, Rui Hou, Madian Khabsa, Mike Lewis, Jimmy Ba, Amjad Almahairi
cs.AI
要旨
プロンプトチューニングは、事前学習済み言語モデルのパラメータ効率的なチューニング手法の一つとして成功を収めています。最もパラメータ効率的な手法であるにもかかわらず(チューニングされたソフトプロンプトは全パラメータの0.1%未満)、他の効率的なチューニング手法と比べて性能が劣ることが多く、ハイパーパラメータの選択にも敏感です。本研究では、Residual Prompt Tuningを提案します。これは、プロンプトチューニングの性能と安定性を大幅に向上させるシンプルで効率的な手法です。我々は、残差接続を持つ浅いネットワークを用いてソフトプロンプトの埋め込みを再パラメータ化することを提案します。実験結果から、Residual Prompt TuningはSuperGLUEベンチマークにおいてプロンプトチューニングを大幅に上回ることが示されました。特に、T5-Baseモデルではプロンプトチューニングに対して7ポイントの改善を達成し、性能を損なうことなくプロンプト長を10分の1に短縮できることが確認されました。さらに、本手法は学習率やプロンプトの初期化の選択に対してロバストであり、少数ショット設定においても有効であることを示します。
English
Prompt tuning is one of the successful approaches for parameter-efficient
tuning of pre-trained language models. Despite being arguably the most
parameter-efficient (tuned soft prompts constitute <0.1% of total parameters),
it typically performs worse than other efficient tuning methods and is quite
sensitive to hyper-parameters. In this work, we introduce Residual Prompt
Tuning - a simple and efficient method that significantly improves the
performance and stability of prompt tuning. We propose to reparameterize soft
prompt embeddings using a shallow network with a residual connection. Our
experiments show that Residual Prompt Tuning significantly outperforms prompt
tuning on SuperGLUE benchmark. Notably, our method reaches +7 points
improvement over prompt tuning with T5-Base and allows to reduce the prompt
length by 10x without hurting performance. In addition, we show that our
approach is robust to the choice of learning rate and prompt initialization,
and is effective in few-shot settings.