Sprachmodelle brauchen Schlaf: Lernen, sich selbst zu modifizieren und Gedächtnis zu konsolidieren

Zusammenfassung

Die letzten Jahrzehnte haben bedeutende Fortschritte im Entwurf maschineller Lernalgorithmen erlebt – von frühen Studien zu aufgabenspezifischen flachen Modellen bis hin zu allgemeineren tiefen Großen Sprachmodellen (LLMs). Obwohl diese Modelle vielversprechende Ergebnisse bei Aufgaben liefern, die sofortige Vorhersagen oder In-Context-Lernen erfordern, fehlt ihnen die Fähigkeit, kontinuierlich zu lernen und ihr zeitliches In-Context-Wissen effektiv in ihre langfristigen Parameter zu übertragen. Inspiriert vom menschlichen Lernprozess führen wir ein „Schlaf“-Paradigma ein, das es den Modellen ermöglicht, kontinuierlich zu lernen, ihr kurzfristiges, fragiles Gedächtnis durch Wiederholung in stabiles Langzeitwissen zu destillieren und sich durch einen „Träumen“-Prozess rekursiv zu verbessern. Im Detail besteht der Schlaf aus zwei Phasen: (1) Gedächtniskonsolidierung: ein aufwärtsgerichteter Destillationsprozess, genannt „Knowledge Seeding“, bei dem die Erinnerungen eines kleineren Selbst in ein größeres Netzwerk destilliert werden, um mehr Kapazität zu schaffen und gleichzeitig das Wissen zu bewahren. Als Proof of Concept präsentieren wir einen neuen generalisierten Destillationsprozess für Knowledge Seeding (d. h. die Kombination von On-Policy-Destillation mit Imitationslernen auf Basis von Reinforcement Learning (RL)); (2) Träumen: eine Selbstverbesserungsphase, in der das Modell RL nutzt, um ein Curriculum synthetischer Daten zu generieren, um neues Wissen zu üben und bestehende Fähigkeiten ohne menschliche Aufsicht zu verfeinern. Unsere Experimente zu langfristigen, kontinuierlichen Lern-, Wissensintegrations- und Few-Shot-Generalisierungsaufgaben untermauern die Bedeutung der Schlafphase.

English

The past few decades have witnessed significant advances in the design of machine learning algorithms, from early studies on task-specific shallow models to more general deep Large Language Models (LLMs). Despite showing promising results in tasks that require instant prediction or in-context learning, existing models lack the ability to continually learn and effectively transfer their temporal in-context knowledge to their long-term parameters. Inspired by human learning process, we introduce a ''Sleep'' paradigm that allows the models to continually learn, distill their short-term fragile memories into stable long-term knowledge with replay, and recursively improve themselves with ''Dreaming'' process. In more detail, sleep consists of two stages: (1) Memory Consolidation: an upward distillation process, called Knowledge Seeding, where the memories of a smaller-self are distilled into a larger network to provide more capacity while preserving the knowledge. As a proof of concept, we present a new Generalized Distillation process for {Knowledge Seeding} (i.e., the combination of on-policy distillation with Reinforcement Learning (RL)-based imitation learning); (2) Dreaming: a self-improvement phase, where the model uses RL to generate a curriculum of synthetic data to rehearse new knowledge and refine existing capabilities without human supervision. Our experiments on long-horizon, continual learning, knowledge incorporation, and few-shot generalization tasks support the importance of the sleep stage.