Réglage de Prompt Résiduel : Amélioration du Réglage de Prompt par Reparamétrisation Résiduelle
Residual Prompt Tuning: Improving Prompt Tuning with Residual Reparameterization
May 6, 2023
Auteurs: Anastasia Razdaibiedina, Yuning Mao, Rui Hou, Madian Khabsa, Mike Lewis, Jimmy Ba, Amjad Almahairi
cs.AI
Résumé
Le réglage par prompt (Prompt Tuning) est l'une des approches efficaces pour l'ajustement paramétrique économe des modèles de langage pré-entraînés. Bien qu'il soit sans doute la méthode la plus économe en paramètres (les prompts souples ajustés représentent moins de 0,1 % du total des paramètres), il performe généralement moins bien que d'autres méthodes de réglage efficaces et est assez sensible aux hyperparamètres. Dans ce travail, nous introduisons le Réglage par Prompt Résiduel (Residual Prompt Tuning) - une méthode simple et efficace qui améliore significativement les performances et la stabilité du réglage par prompt. Nous proposons de reparamétrer les embeddings de prompts souples à l'aide d'un réseau peu profond avec une connexion résiduelle. Nos expériences montrent que le Réglage par Prompt Résiduel surpasse significativement le réglage par prompt sur le benchmark SuperGLUE. Notamment, notre méthode atteint une amélioration de +7 points par rapport au réglage par prompt avec T5-Base et permet de réduire la longueur du prompt par 10 sans nuire aux performances. De plus, nous montrons que notre approche est robuste au choix du taux d'apprentissage et de l'initialisation du prompt, et est efficace dans des contextes de few-shot.
English
Prompt tuning is one of the successful approaches for parameter-efficient
tuning of pre-trained language models. Despite being arguably the most
parameter-efficient (tuned soft prompts constitute <0.1% of total parameters),
it typically performs worse than other efficient tuning methods and is quite
sensitive to hyper-parameters. In this work, we introduce Residual Prompt
Tuning - a simple and efficient method that significantly improves the
performance and stability of prompt tuning. We propose to reparameterize soft
prompt embeddings using a shallow network with a residual connection. Our
experiments show that Residual Prompt Tuning significantly outperforms prompt
tuning on SuperGLUE benchmark. Notably, our method reaches +7 points
improvement over prompt tuning with T5-Base and allows to reduce the prompt
length by 10x without hurting performance. In addition, we show that our
approach is robust to the choice of learning rate and prompt initialization,
and is effective in few-shot settings.