ChatPaper.aiChatPaper

Amélioration de la plasticité linguistique par prétrainage avec oubli actif

Improving Language Plasticity via Pretraining with Active Forgetting

July 3, 2023
Auteurs: Yihong Chen, Kelly Marchisio, Roberta Raileanu, David Ifeoluwa Adelani, Pontus Stenetor, Sebastian Riedel, Mikel Artetx
cs.AI

Résumé

Les modèles de langage pré-entraînés (PLM) sont aujourd'hui le modèle principal pour le traitement du langage naturel. Malgré leurs performances impressionnantes en aval, il peut être difficile d'appliquer les PLM à de nouvelles langues, ce qui constitue un obstacle à l'accessibilité universelle de leurs capacités. Bien que des travaux antérieurs aient montré qu'il est possible de résoudre ce problème en apprenant une nouvelle couche d'embedding pour la nouvelle langue, cette approche est à la fois inefficace en termes de données et de calcul. Nous proposons d'utiliser un mécanisme d'oubli actif pendant le pré-entraînement, comme une méthode simple pour créer des PLM capables de s'adapter rapidement à de nouvelles langues. Concrètement, en réinitialisant la couche d'embedding tous les K mises à jour pendant le pré-entraînement, nous encourageons le PLM à améliorer sa capacité à apprendre de nouveaux embeddings en un nombre limité de mises à jour, similaire à un effet de méta-apprentissage. Les expériences avec RoBERTa montrent que les modèles pré-entraînés avec notre mécanisme d'oubli démontrent non seulement une convergence plus rapide pendant l'adaptation linguistique, mais surpassent également les modèles standards dans un régime de faible quantité de données, en particulier pour les langues éloignées de l'anglais.
English
Pretrained language models (PLMs) are today the primary model for natural language processing. Despite their impressive downstream performance, it can be difficult to apply PLMs to new languages, a barrier to making their capabilities universally accessible. While prior work has shown it possible to address this issue by learning a new embedding layer for the new language, doing so is both data and compute inefficient. We propose to use an active forgetting mechanism during pretraining, as a simple way of creating PLMs that can quickly adapt to new languages. Concretely, by resetting the embedding layer every K updates during pretraining, we encourage the PLM to improve its ability of learning new embeddings within a limited number of updates, similar to a meta-learning effect. Experiments with RoBERTa show that models pretrained with our forgetting mechanism not only demonstrate faster convergence during language adaptation but also outperform standard ones in a low-data regime, particularly for languages that are distant from English.
PDF60December 15, 2024