Residual Prompt Tuning: Verbetering van Prompt Tuning met Residual Herparameterisatie
Residual Prompt Tuning: Improving Prompt Tuning with Residual Reparameterization
May 6, 2023
Auteurs: Anastasia Razdaibiedina, Yuning Mao, Rui Hou, Madian Khabsa, Mike Lewis, Jimmy Ba, Amjad Almahairi
cs.AI
Samenvatting
Prompt tuning is een van de succesvolle benaderingen voor parameter-efficiënte afstemming van vooraf getrainde taalmodelen. Hoewel het mogelijk de meest parameter-efficiënte methode is (afgestemde soft prompts vormen <0,1% van de totale parameters), presteert het doorgaans slechter dan andere efficiënte afstemmethoden en is het behoorlijk gevoelig voor hyperparameters. In dit werk introduceren we Residual Prompt Tuning - een eenvoudige en efficiënte methode die de prestaties en stabiliteit van prompt tuning aanzienlijk verbetert. We stellen voor om soft prompt embeddings te herparameteriseren met behulp van een ondiep netwerk met een restverbinding. Onze experimenten tonen aan dat Residual Prompt Tuning prompt tuning aanzienlijk overtreft op de SuperGLUE-benchmark. Opmerkelijk is dat onze methode een verbetering van +7 punten bereikt ten opzichte van prompt tuning met T5-Base en het mogelijk maakt om de promptlengte met 10x te verminderen zonder de prestaties te schaden. Daarnaast laten we zien dat onze aanpak robuust is voor de keuze van leerrate en promptinitialisatie, en effectief is in few-shot instellingen.
English
Prompt tuning is one of the successful approaches for parameter-efficient
tuning of pre-trained language models. Despite being arguably the most
parameter-efficient (tuned soft prompts constitute <0.1% of total parameters),
it typically performs worse than other efficient tuning methods and is quite
sensitive to hyper-parameters. In this work, we introduce Residual Prompt
Tuning - a simple and efficient method that significantly improves the
performance and stability of prompt tuning. We propose to reparameterize soft
prompt embeddings using a shallow network with a residual connection. Our
experiments show that Residual Prompt Tuning significantly outperforms prompt
tuning on SuperGLUE benchmark. Notably, our method reaches +7 points
improvement over prompt tuning with T5-Base and allows to reduce the prompt
length by 10x without hurting performance. In addition, we show that our
approach is robust to the choice of learning rate and prompt initialization,
and is effective in few-shot settings.