Vers un apprentissage linguistique continu robuste et efficace
Towards Robust and Efficient Continual Language Learning
July 11, 2023
Auteurs: Adam Fisch, Amal Rannen-Triki, Razvan Pascanu, Jörg Bornschein, Angeliki Lazaridou, Elena Gribovskaya, Marc'Aurelio Ranzato
cs.AI
Résumé
Alors que le domaine d'application des modèles de langage continue d'évoluer, une question naturelle se pose : comment pouvons-nous adapter rapidement ces modèles à de nouvelles tâches ? Nous abordons cette question classique sous l'angle de l'apprentissage continu, où l'objectif est de poursuivre le fine-tuning de modèles entraînés sur des tâches passées pour les nouvelles tâches, dans le but de "transférer" les connaissances pertinentes. Cependant, cette stratégie comporte également le risque de faire plus de mal que de bien, c'est-à-dire un transfert négatif. Dans cet article, nous construisons un nouveau benchmark de séquences de tâches visant à cibler différents scénarios de transfert possibles, tels qu'une séquence de tâches avec un fort potentiel de transfert positif, un fort potentiel de transfert négatif, aucun effet attendu, ou un mélange de chacun. Un apprenant idéal devrait être capable d'exploiter au maximum les informations provenant de toutes les tâches ayant un potentiel de transfert positif, tout en évitant les effets négatifs des tâches distrayantes qui pourraient le perturber. Nous proposons ensuite un apprenant simple mais efficace qui répond à bon nombre de nos desiderata en utilisant simplement une stratégie sélective pour initialiser de nouveaux modèles à partir de points de contrôle de tâches passées. Néanmoins, des limites subsistent, et nous espérons que ce benchmark pourra aider la communauté à construire et analyser davantage de tels apprenants.
English
As the application space of language models continues to evolve, a natural
question to ask is how we can quickly adapt models to new tasks. We approach
this classic question from a continual learning perspective, in which we aim to
continue fine-tuning models trained on past tasks on new tasks, with the goal
of "transferring" relevant knowledge. However, this strategy also runs the risk
of doing more harm than good, i.e., negative transfer. In this paper, we
construct a new benchmark of task sequences that target different possible
transfer scenarios one might face, such as a sequence of tasks with high
potential of positive transfer, high potential for negative transfer, no
expected effect, or a mixture of each. An ideal learner should be able to
maximally exploit information from all tasks that have any potential for
positive transfer, while also avoiding the negative effects of any distracting
tasks that may confuse it. We then propose a simple, yet effective, learner
that satisfies many of our desiderata simply by leveraging a selective strategy
for initializing new models from past task checkpoints. Still, limitations
remain, and we hope this benchmark can help the community to further build and
analyze such learners.