Apprentissage Continu Incrémental par Domaines dans un Monde Ouvert
Domain Incremental Lifelong Learning in an Open World
May 11, 2023
Auteurs: Yi Dai, Hao Lang, Yinhe Zheng, Bowen Yu, Fei Huang, Yongbin Li
cs.AI
Résumé
L'apprentissage continu (Lifelong Learning, LL) est une capacité essentielle pour les modèles de traitement du langage naturel (NLP) afin d'apprendre de nouvelles tâches de manière continue. Les approches basées sur l'architecture sont reconnues comme des implémentations efficaces pour les modèles LL. Cependant, il est complexe d'étendre les approches précédentes aux scénarios d'apprentissage continu incrémental par domaine, car elles nécessitent soit l'accès aux identités des tâches lors de la phase de test, soit ne parviennent pas à gérer les échantillons provenant de tâches inconnues. Dans cet article, nous proposons Diana : un modèle d'apprentissage continu basé sur une architecture dynamique qui vise à apprendre une séquence de tâches à l'aide d'un modèle de langage enrichi par des prompts. Quatre types de prompts organisés hiérarchiquement sont utilisés dans Diana pour capturer des connaissances à différents niveaux de granularité. Plus précisément, nous dédions des prompts au niveau des tâches pour capturer les connaissances spécifiques à chaque tâche, afin de maintenir des performances élevées en LL, et des prompts au niveau des instances pour apprendre les connaissances partagées entre les échantillons d'entrée, afin d'améliorer la performance de généralisation du modèle. De plus, nous attribuons des prompts distincts pour modéliser explicitement les tâches inconnues et introduisons un ensemble de vecteurs clés de prompts pour faciliter le partage des connaissances entre les tâches. Des expériences approfondies démontrent que Diana surpasse les modèles LL de pointe, en particulier dans la gestion des tâches inconnues. Nous mettons à disposition le code et les données à l'adresse suivante : https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/diana.
English
Lifelong learning (LL) is an important ability for NLP models to learn new
tasks continuously. Architecture-based approaches are reported to be effective
implementations for LL models. However, it is non-trivial to extend previous
approaches to domain incremental LL scenarios since they either require access
to task identities in the testing phase or cannot handle samples from unseen
tasks. In this paper, we propose Diana: a
dynamic architecture-based
lifelong learning model that tries to learn a sequence
of tasks with a prompt-enhanced language model. Four types of hierarchically
organized prompts are used in Diana to capture knowledge from different
granularities. Specifically, we dedicate task-level prompts to capture
task-specific knowledge to retain high LL performances and maintain
instance-level prompts to learn knowledge shared across input samples to
improve the model's generalization performance. Moreover, we dedicate separate
prompts to explicitly model unseen tasks and introduce a set of prompt key
vectors to facilitate knowledge sharing between tasks. Extensive experiments
demonstrate that Diana outperforms state-of-the-art LL models, especially in
handling unseen tasks. We release the code and data at
https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/diana.