Taalmodellen Hebben Slaap Nodig: Leren Zichzelf Aanpassen en Herinneringen Consolideren

Samenvatting

De afgelopen decennia hebben aanzienlijke vooruitgang gezien in het ontwerp van machine learning-algoritmen, van vroege onderzoeken naar taakspecifieke ondiepe modellen tot meer algemene diepe Large Language Models (LLM's). Ondanks dat ze veelbelovende resultaten laten zien in taken die onmiddellijke voorspelling of in-context leren vereisen, missen bestaande modellen het vermogen om continu te leren en hun temporele in-context kennis effectief over te dragen naar hun langetermijnparameters. Geïnspireerd door het menselijke leerproces introduceren we een "Slaap"-paradigma waarmee de modellen continu kunnen leren, hun kortetermijnkwetsbare herinneringen kunnen distilleren naar stabiele langetermijnkennis met replay, en zichzelf recursief kunnen verbeteren met een "Dromen"-proces. In meer detail bestaat slaap uit twee fasen: (1) Geheugenconsolidatie: een opwaarts distillatieproces, genaamd Kenniszaaien, waarbij de herinneringen van een kleinere zelf worden gedistilleerd naar een groter netwerk om meer capaciteit te bieden terwijl de kennis behouden blijft. Als proof of concept presenteren we een nieuw Gegeneraliseerd Distillatieproces voor Kenniszaaien (d.w.z. de combinatie van on-policy distillatie met op Reinforcement Learning (RL) gebaseerd imitatieleren); (2) Dromen: een zelfverbeteringsfase, waarin het model RL gebruikt om een curriculum van synthetische data te genereren om nieuwe kennis te oefenen en bestaande capaciteiten te verfijnen zonder menselijk toezicht. Onze experimenten op taken met een lange horizon, continu leren, kennisopname en few-shot generalisatie ondersteunen het belang van de slaapfase.

English

The past few decades have witnessed significant advances in the design of machine learning algorithms, from early studies on task-specific shallow models to more general deep Large Language Models (LLMs). Despite showing promising results in tasks that require instant prediction or in-context learning, existing models lack the ability to continually learn and effectively transfer their temporal in-context knowledge to their long-term parameters. Inspired by human learning process, we introduce a ''Sleep'' paradigm that allows the models to continually learn, distill their short-term fragile memories into stable long-term knowledge with replay, and recursively improve themselves with ''Dreaming'' process. In more detail, sleep consists of two stages: (1) Memory Consolidation: an upward distillation process, called Knowledge Seeding, where the memories of a smaller-self are distilled into a larger network to provide more capacity while preserving the knowledge. As a proof of concept, we present a new Generalized Distillation process for {Knowledge Seeding} (i.e., the combination of on-policy distillation with Reinforcement Learning (RL)-based imitation learning); (2) Dreaming: a self-improvement phase, where the model uses RL to generate a curriculum of synthetic data to rehearse new knowledge and refine existing capabilities without human supervision. Our experiments on long-horizon, continual learning, knowledge incorporation, and few-shot generalization tasks support the importance of the sleep stage.