Residual Prompt Tuning: Migliorare il Prompt Tuning con Riparametrizzazione Residua
Residual Prompt Tuning: Improving Prompt Tuning with Residual Reparameterization
May 6, 2023
Autori: Anastasia Razdaibiedina, Yuning Mao, Rui Hou, Madian Khabsa, Mike Lewis, Jimmy Ba, Amjad Almahairi
cs.AI
Abstract
Il prompt tuning è uno degli approcci di successo per il tuning efficiente in termini di parametri dei modelli linguistici pre-addestrati. Nonostante sia probabilmente il metodo più efficiente in termini di parametri (i prompt soft ottimizzati costituiscono <0,1% dei parametri totali), in genere ottiene prestazioni inferiori rispetto ad altri metodi di tuning efficienti ed è piuttosto sensibile agli iperparametri. In questo lavoro, introduciamo il Residual Prompt Tuning, un metodo semplice ed efficiente che migliora significativamente le prestazioni e la stabilità del prompt tuning. Proponiamo di riparametrizzare gli embedding dei prompt soft utilizzando una rete poco profonda con una connessione residua. I nostri esperimenti dimostrano che il Residual Prompt Tuning supera significativamente il prompt tuning sul benchmark SuperGLUE. In particolare, il nostro metodo raggiunge un miglioramento di +7 punti rispetto al prompt tuning con T5-Base e consente di ridurre la lunghezza del prompt di 10 volte senza compromettere le prestazioni. Inoltre, mostriamo che il nostro approccio è robusto alla scelta del tasso di apprendimento e dell'inizializzazione del prompt, ed è efficace in contesti few-shot.
English
Prompt tuning is one of the successful approaches for parameter-efficient
tuning of pre-trained language models. Despite being arguably the most
parameter-efficient (tuned soft prompts constitute <0.1% of total parameters),
it typically performs worse than other efficient tuning methods and is quite
sensitive to hyper-parameters. In this work, we introduce Residual Prompt
Tuning - a simple and efficient method that significantly improves the
performance and stability of prompt tuning. We propose to reparameterize soft
prompt embeddings using a shallow network with a residual connection. Our
experiments show that Residual Prompt Tuning significantly outperforms prompt
tuning on SuperGLUE benchmark. Notably, our method reaches +7 points
improvement over prompt tuning with T5-Base and allows to reduce the prompt
length by 10x without hurting performance. In addition, we show that our
approach is robust to the choice of learning rate and prompt initialization,
and is effective in few-shot settings.