Остаточная настройка промптов: Улучшение настройки промптов с помощью остаточной репараметризации
Residual Prompt Tuning: Improving Prompt Tuning with Residual Reparameterization
May 6, 2023
Авторы: Anastasia Razdaibiedina, Yuning Mao, Rui Hou, Madian Khabsa, Mike Lewis, Jimmy Ba, Amjad Almahairi
cs.AI
Аннотация
Тюнинг промптов является одним из успешных подходов для параметрически эффективной настройки предобученных языковых моделей. Несмотря на то, что он, возможно, является наиболее параметрически эффективным (настраиваемые мягкие промпты составляют <0,1% от общего числа параметров), он, как правило, показывает худшие результаты по сравнению с другими эффективными методами настройки и довольно чувствителен к гиперпараметрам. В данной работе мы представляем Residual Prompt Tuning — простой и эффективный метод, который значительно улучшает производительность и стабильность тюнинга промптов. Мы предлагаем перепараметризовать вложения мягких промптов с использованием неглубокой сети с остаточным соединением. Наши эксперименты показывают, что Residual Prompt Tuning значительно превосходит тюнинг промптов на бенчмарке SuperGLUE. В частности, наш метод демонстрирует улучшение на +7 баллов по сравнению с тюнингом промптов на модели T5-Base и позволяет сократить длину промпта в 10 раз без ущерба для производительности. Кроме того, мы показываем, что наш подход устойчив к выбору скорости обучения и инициализации промптов, а также эффективен в условиях обучения с малым количеством примеров.
English
Prompt tuning is one of the successful approaches for parameter-efficient
tuning of pre-trained language models. Despite being arguably the most
parameter-efficient (tuned soft prompts constitute <0.1% of total parameters),
it typically performs worse than other efficient tuning methods and is quite
sensitive to hyper-parameters. In this work, we introduce Residual Prompt
Tuning - a simple and efficient method that significantly improves the
performance and stability of prompt tuning. We propose to reparameterize soft
prompt embeddings using a shallow network with a residual connection. Our
experiments show that Residual Prompt Tuning significantly outperforms prompt
tuning on SuperGLUE benchmark. Notably, our method reaches +7 points
improvement over prompt tuning with T5-Base and allows to reduce the prompt
length by 10x without hurting performance. In addition, we show that our
approach is robust to the choice of learning rate and prompt initialization,
and is effective in few-shot settings.