Ajuste de Prompts Residual: Mejorando el Ajuste de Prompts con Reparametrización Residual
Residual Prompt Tuning: Improving Prompt Tuning with Residual Reparameterization
May 6, 2023
Autores: Anastasia Razdaibiedina, Yuning Mao, Rui Hou, Madian Khabsa, Mike Lewis, Jimmy Ba, Amjad Almahairi
cs.AI
Resumen
El ajuste de prompts (prompt tuning) es uno de los enfoques exitosos para el ajuste eficiente en parámetros de modelos de lenguaje preentrenados. A pesar de ser posiblemente el método más eficiente en términos de parámetros (los prompts ajustados constituyen <0.1% del total de parámetros), generalmente tiene un rendimiento inferior a otros métodos de ajuste eficiente y es bastante sensible a los hiperparámetros. En este trabajo, presentamos el Ajuste de Prompts Residual (Residual Prompt Tuning), un método simple y eficiente que mejora significativamente el rendimiento y la estabilidad del ajuste de prompts. Proponemos reparametrizar los embeddings de los prompts suaves utilizando una red superficial con una conexión residual. Nuestros experimentos muestran que el Ajuste de Prompts Residual supera significativamente al ajuste de prompts en el benchmark SuperGLUE. En particular, nuestro método alcanza una mejora de +7 puntos sobre el ajuste de prompts con T5-Base y permite reducir la longitud del prompt en 10 veces sin afectar el rendimiento. Además, demostramos que nuestro enfoque es robusto a la elección de la tasa de aprendizaje y la inicialización del prompt, y es efectivo en escenarios de pocos ejemplos (few-shot).
English
Prompt tuning is one of the successful approaches for parameter-efficient
tuning of pre-trained language models. Despite being arguably the most
parameter-efficient (tuned soft prompts constitute <0.1% of total parameters),
it typically performs worse than other efficient tuning methods and is quite
sensitive to hyper-parameters. In this work, we introduce Residual Prompt
Tuning - a simple and efficient method that significantly improves the
performance and stability of prompt tuning. We propose to reparameterize soft
prompt embeddings using a shallow network with a residual connection. Our
experiments show that Residual Prompt Tuning significantly outperforms prompt
tuning on SuperGLUE benchmark. Notably, our method reaches +7 points
improvement over prompt tuning with T5-Base and allows to reduce the prompt
length by 10x without hurting performance. In addition, we show that our
approach is robust to the choice of learning rate and prompt initialization,
and is effective in few-shot settings.