Naar robuust en efficiënt continu taal leren

Samenvatting

Naarmate de toepassingsruimte van taalmodelle blijft evolueren, is het een natuurlijke vraag hoe we modellen snel kunnen aanpassen aan nieuwe taken. We benaderen deze klassieke vraag vanuit een perspectief van continu leren, waarbij we streven naar het blijven finetunen van modellen die getraind zijn op eerdere taken voor nieuwe taken, met als doel relevante kennis "over te dragen". Deze strategie brengt echter ook het risico met zich mee van meer kwaad dan goed, oftewel negatieve overdracht. In dit artikel construeren we een nieuwe benchmark van taaksequenties die gericht zijn op verschillende mogelijke overdrachtsscenario's waarmee men te maken kan krijgen, zoals een reeks taken met een hoge kans op positieve overdracht, een hoge kans op negatieve overdracht, geen verwacht effect, of een mix van elk. Een ideale leerder zou in staat moeten zijn om informatie maximaal te benutten van alle taken die enig potentieel hebben voor positieve overdracht, terwijl ook de negatieve effecten van afleidende taken die verwarring kunnen veroorzaken, worden vermeden. Vervolgens stellen we een eenvoudige, maar effectieve leerder voor die aan veel van onze wensen voldoet door simpelweg een selectieve strategie te gebruiken voor het initialiseren van nieuwe modellen vanuit checkpoints van eerdere taken. Toch blijven er beperkingen bestaan, en we hopen dat deze benchmark de gemeenschap kan helpen om dergelijke leerders verder te ontwikkelen en te analyseren.

English

As the application space of language models continues to evolve, a natural question to ask is how we can quickly adapt models to new tasks. We approach this classic question from a continual learning perspective, in which we aim to continue fine-tuning models trained on past tasks on new tasks, with the goal of "transferring" relevant knowledge. However, this strategy also runs the risk of doing more harm than good, i.e., negative transfer. In this paper, we construct a new benchmark of task sequences that target different possible transfer scenarios one might face, such as a sequence of tasks with high potential of positive transfer, high potential for negative transfer, no expected effect, or a mixture of each. An ideal learner should be able to maximally exploit information from all tasks that have any potential for positive transfer, while also avoiding the negative effects of any distracting tasks that may confuse it. We then propose a simple, yet effective, learner that satisfies many of our desiderata simply by leveraging a selective strategy for initializing new models from past task checkpoints. Still, limitations remain, and we hope this benchmark can help the community to further build and analyze such learners.

Naar robuust en efficiënt continu taal leren

Towards Robust and Efficient Continual Language Learning

Samenvatting

Support