Les modèles de langage ont besoin de sommeil : apprendre à s'auto-modifier et à consolider les mémoires

Résumé

Les dernières décennies ont été marquées par des avancées significatives dans la conception d'algorithmes d'apprentissage automatique, passant des premières études sur des modèles peu profonds spécifiques à une tâche à des Grands Modèles de Langage (LLMs) profonds et plus généraux. Bien qu'ils montrent des résultats prometteurs dans des tâches nécessitant une prédiction instantanée ou un apprentissage en contexte, les modèles existants ne possèdent pas la capacité d'apprendre en continu et de transférer efficacement leurs connaissances temporelles contextuelles vers leurs paramètres à long terme. Inspirés par le processus d'apprentissage humain, nous introduisons un paradigme de « Sommeil » qui permet aux modèles d'apprendre en continu, de distiller leurs mémoires fragiles à court terme en connaissances stables à long terme via le rejeu, et de s'améliorer de manière récursive grâce à un processus de « Rêve ». Plus en détail, le sommeil comprend deux étapes : (1) la Consolidation de la Mémoire : un processus de distillation ascendante, appelé Ensemencement de Connaissances, où les mémoires d'un soi plus petit sont distillées dans un réseau plus vaste pour offrir une capacité accrue tout en préservant les connaissances. À titre de preuve de concept, nous présentons un nouveau processus de Distillation Généralisée pour l'Ensemencement de Connaissances (c'est-à-dire la combinaison de la distillation sur politique avec l'apprentissage par imitation basé sur l'Apprentissage par Renforcement (RL)) ; (2) le Rêve : une phase d'auto-amélioration, où le modèle utilise le RL pour générer un programme de données synthétiques afin de répéter de nouvelles connaissances et d'affiner les capacités existantes sans supervision humaine. Nos expériences sur des tâches d'horizon long, d'apprentissage continu, d'incorporation de connaissances et de généralisation en few-shot soutiennent l'importance de la phase de sommeil.

English

The past few decades have witnessed significant advances in the design of machine learning algorithms, from early studies on task-specific shallow models to more general deep Large Language Models (LLMs). Despite showing promising results in tasks that require instant prediction or in-context learning, existing models lack the ability to continually learn and effectively transfer their temporal in-context knowledge to their long-term parameters. Inspired by human learning process, we introduce a ''Sleep'' paradigm that allows the models to continually learn, distill their short-term fragile memories into stable long-term knowledge with replay, and recursively improve themselves with ''Dreaming'' process. In more detail, sleep consists of two stages: (1) Memory Consolidation: an upward distillation process, called Knowledge Seeding, where the memories of a smaller-self are distilled into a larger network to provide more capacity while preserving the knowledge. As a proof of concept, we present a new Generalized Distillation process for {Knowledge Seeding} (i.e., the combination of on-policy distillation with Reinforcement Learning (RL)-based imitation learning); (2) Dreaming: a self-improvement phase, where the model uses RL to generate a curriculum of synthetic data to rehearse new knowledge and refine existing capabilities without human supervision. Our experiments on long-horizon, continual learning, knowledge incorporation, and few-shot generalization tasks support the importance of the sleep stage.