Ajuste de Prompt Residual: Melhorando o Ajuste de Prompt com Reparametrização Residual
Residual Prompt Tuning: Improving Prompt Tuning with Residual Reparameterization
May 6, 2023
Autores: Anastasia Razdaibiedina, Yuning Mao, Rui Hou, Madian Khabsa, Mike Lewis, Jimmy Ba, Amjad Almahairi
cs.AI
Resumo
O ajuste de prompts (prompt tuning) é uma das abordagens bem-sucedidas para o ajuste eficiente em parâmetros de modelos de linguagem pré-treinados. Apesar de ser indiscutivelmente o método mais eficiente em termos de parâmetros (os prompts ajustados constituem <0,1% do total de parâmetros), ele geralmente tem desempenho inferior a outros métodos de ajuste eficiente e é bastante sensível à escolha de hiperparâmetros. Neste trabalho, introduzimos o Ajuste de Prompts Residual (Residual Prompt Tuning) - um método simples e eficiente que melhora significativamente o desempenho e a estabilidade do ajuste de prompts. Propomos reparametrizar os embeddings de prompts suaves usando uma rede rasa com uma conexão residual. Nossos experimentos mostram que o Ajuste de Prompts Residual supera significativamente o ajuste de prompts tradicional no benchmark SuperGLUE. Notavelmente, nosso método alcança uma melhoria de +7 pontos em relação ao ajuste de prompts com o modelo T5-Base e permite reduzir o comprimento do prompt em 10 vezes sem prejudicar o desempenho. Além disso, demonstramos que nossa abordagem é robusta à escolha da taxa de aprendizado e da inicialização do prompt, e é eficaz em cenários de poucos exemplos (few-shot).
English
Prompt tuning is one of the successful approaches for parameter-efficient
tuning of pre-trained language models. Despite being arguably the most
parameter-efficient (tuned soft prompts constitute <0.1% of total parameters),
it typically performs worse than other efficient tuning methods and is quite
sensitive to hyper-parameters. In this work, we introduce Residual Prompt
Tuning - a simple and efficient method that significantly improves the
performance and stability of prompt tuning. We propose to reparameterize soft
prompt embeddings using a shallow network with a residual connection. Our
experiments show that Residual Prompt Tuning significantly outperforms prompt
tuning on SuperGLUE benchmark. Notably, our method reaches +7 points
improvement over prompt tuning with T5-Base and allows to reduce the prompt
length by 10x without hurting performance. In addition, we show that our
approach is robust to the choice of learning rate and prompt initialization,
and is effective in few-shot settings.