Residual Prompt Tuning: Verbesserung des Prompt Tunings durch Residuale Reparameterisierung
Residual Prompt Tuning: Improving Prompt Tuning with Residual Reparameterization
May 6, 2023
Autoren: Anastasia Razdaibiedina, Yuning Mao, Rui Hou, Madian Khabsa, Mike Lewis, Jimmy Ba, Amjad Almahairi
cs.AI
Zusammenfassung
Prompt Tuning ist einer der erfolgreichen Ansätze für parameter-effizientes Fine-Tuning vortrainierter Sprachmodelle. Obwohl es wohl der parameter-effizienteste Ansatz ist (abgestimmte Soft Prompts machen <0,1 % der Gesamtparameter aus), schneidet es in der Regel schlechter ab als andere effiziente Tuning-Methoden und ist recht empfindlich gegenüber Hyperparametern. In dieser Arbeit stellen wir Residual Prompt Tuning vor – eine einfache und effiziente Methode, die die Leistung und Stabilität von Prompt Tuning erheblich verbessert. Wir schlagen vor, Soft-Prompt-Embeddings mithilfe eines flachen Netzwerks mit einer Residualverbindung neu zu parametrisieren. Unsere Experimente zeigen, dass Residual Prompt Tuning auf dem SuperGLUE-Benchmark deutlich besser abschneidet als Prompt Tuning. Bemerkenswerterweise erreicht unsere Methode eine Verbesserung von +7 Punkten gegenüber Prompt Tuning mit T5-Base und ermöglicht es, die Prompt-Länge um das 10-fache zu reduzieren, ohne die Leistung zu beeinträchtigen. Darüber hinaus zeigen wir, dass unser Ansatz robust gegenüber der Wahl der Lernrate und der Prompt-Initialisierung ist und in Few-Shot-Szenarien effektiv ist.
English
Prompt tuning is one of the successful approaches for parameter-efficient
tuning of pre-trained language models. Despite being arguably the most
parameter-efficient (tuned soft prompts constitute <0.1% of total parameters),
it typically performs worse than other efficient tuning methods and is quite
sensitive to hyper-parameters. In this work, we introduce Residual Prompt
Tuning - a simple and efficient method that significantly improves the
performance and stability of prompt tuning. We propose to reparameterize soft
prompt embeddings using a shallow network with a residual connection. Our
experiments show that Residual Prompt Tuning significantly outperforms prompt
tuning on SuperGLUE benchmark. Notably, our method reaches +7 points
improvement over prompt tuning with T5-Base and allows to reduce the prompt
length by 10x without hurting performance. In addition, we show that our
approach is robust to the choice of learning rate and prompt initialization,
and is effective in few-shot settings.