Naar robuust en efficiënt continu taal leren
Towards Robust and Efficient Continual Language Learning
July 11, 2023
Auteurs: Adam Fisch, Amal Rannen-Triki, Razvan Pascanu, Jörg Bornschein, Angeliki Lazaridou, Elena Gribovskaya, Marc'Aurelio Ranzato
cs.AI
Samenvatting
Naarmate de toepassingsruimte van taalmodelle blijft evolueren, is het een
natuurlijke vraag hoe we modellen snel kunnen aanpassen aan nieuwe taken. We
benaderen deze klassieke vraag vanuit een perspectief van continu leren, waarbij
we streven naar het blijven finetunen van modellen die getraind zijn op eerdere
taken voor nieuwe taken, met als doel relevante kennis "over te dragen". Deze
strategie brengt echter ook het risico met zich mee van meer kwaad dan goed, oftewel
negatieve overdracht. In dit artikel construeren we een nieuwe benchmark van
taaksequenties die gericht zijn op verschillende mogelijke overdrachtsscenario's
waarmee men te maken kan krijgen, zoals een reeks taken met een hoge kans op
positieve overdracht, een hoge kans op negatieve overdracht, geen verwacht effect,
of een mix van elk. Een ideale leerder zou in staat moeten zijn om informatie
maximaal te benutten van alle taken die enig potentieel hebben voor positieve
overdracht, terwijl ook de negatieve effecten van afleidende taken die verwarring
kunnen veroorzaken, worden vermeden. Vervolgens stellen we een eenvoudige, maar
effectieve leerder voor die aan veel van onze wensen voldoet door simpelweg een
selectieve strategie te gebruiken voor het initialiseren van nieuwe modellen vanuit
checkpoints van eerdere taken. Toch blijven er beperkingen bestaan, en we hopen
dat deze benchmark de gemeenschap kan helpen om dergelijke leerders verder te
ontwikkelen en te analyseren.
English
As the application space of language models continues to evolve, a natural
question to ask is how we can quickly adapt models to new tasks. We approach
this classic question from a continual learning perspective, in which we aim to
continue fine-tuning models trained on past tasks on new tasks, with the goal
of "transferring" relevant knowledge. However, this strategy also runs the risk
of doing more harm than good, i.e., negative transfer. In this paper, we
construct a new benchmark of task sequences that target different possible
transfer scenarios one might face, such as a sequence of tasks with high
potential of positive transfer, high potential for negative transfer, no
expected effect, or a mixture of each. An ideal learner should be able to
maximally exploit information from all tasks that have any potential for
positive transfer, while also avoiding the negative effects of any distracting
tasks that may confuse it. We then propose a simple, yet effective, learner
that satisfies many of our desiderata simply by leveraging a selective strategy
for initializing new models from past task checkpoints. Still, limitations
remain, and we hope this benchmark can help the community to further build and
analyze such learners.