Apprentissage Continu Incrémental par Domaines dans un Monde Ouvert

Résumé

L'apprentissage continu (Lifelong Learning, LL) est une capacité essentielle pour les modèles de traitement du langage naturel (NLP) afin d'apprendre de nouvelles tâches de manière continue. Les approches basées sur l'architecture sont reconnues comme des implémentations efficaces pour les modèles LL. Cependant, il est complexe d'étendre les approches précédentes aux scénarios d'apprentissage continu incrémental par domaine, car elles nécessitent soit l'accès aux identités des tâches lors de la phase de test, soit ne parviennent pas à gérer les échantillons provenant de tâches inconnues. Dans cet article, nous proposons Diana : un modèle d'apprentissage continu basé sur une architecture dynamique qui vise à apprendre une séquence de tâches à l'aide d'un modèle de langage enrichi par des prompts. Quatre types de prompts organisés hiérarchiquement sont utilisés dans Diana pour capturer des connaissances à différents niveaux de granularité. Plus précisément, nous dédions des prompts au niveau des tâches pour capturer les connaissances spécifiques à chaque tâche, afin de maintenir des performances élevées en LL, et des prompts au niveau des instances pour apprendre les connaissances partagées entre les échantillons d'entrée, afin d'améliorer la performance de généralisation du modèle. De plus, nous attribuons des prompts distincts pour modéliser explicitement les tâches inconnues et introduisons un ensemble de vecteurs clés de prompts pour faciliter le partage des connaissances entre les tâches. Des expériences approfondies démontrent que Diana surpasse les modèles LL de pointe, en particulier dans la gestion des tâches inconnues. Nous mettons à disposition le code et les données à l'adresse suivante : https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/diana.

English

Lifelong learning (LL) is an important ability for NLP models to learn new tasks continuously. Architecture-based approaches are reported to be effective implementations for LL models. However, it is non-trivial to extend previous approaches to domain incremental LL scenarios since they either require access to task identities in the testing phase or cannot handle samples from unseen tasks. In this paper, we propose Diana: a dynamic architecture-based lifelong learning model that tries to learn a sequence of tasks with a prompt-enhanced language model. Four types of hierarchically organized prompts are used in Diana to capture knowledge from different granularities. Specifically, we dedicate task-level prompts to capture task-specific knowledge to retain high LL performances and maintain instance-level prompts to learn knowledge shared across input samples to improve the model's generalization performance. Moreover, we dedicate separate prompts to explicitly model unseen tasks and introduce a set of prompt key vectors to facilitate knowledge sharing between tasks. Extensive experiments demonstrate that Diana outperforms state-of-the-art LL models, especially in handling unseen tasks. We release the code and data at https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/diana.

Apprentissage Continu Incrémental par Domaines dans un Monde Ouvert

Domain Incremental Lifelong Learning in an Open World

Résumé

Support