Sprachmodelle brauchen Schlaf

Zusammenfassung

Transformer-basierte große Sprachmodelle werden zunehmend für langfristige Aufgaben eingesetzt; ihr Aufmerksamkeitsmechanismus skaliert jedoch schlecht mit der Kontextlänge. Um dies zu bewältigen, untersuchen wir einen schlafähnlichen Konsolidierungsmechanismus, bei dem ein Modell periodisch aktuellen Kontext in persistente schnelle Gewichte umwandelt, bevor es seinen Schlüssel-Wert-Zwischenspeicher leert. Während des Schlafs führt das Modell N offline rekursive Durchläufe über den angesammelten Kontext durch und aktualisiert die schnellen Gewichte in seinen Zustandsraummodell-(SSM-)Blöcken mittels einer erlernten lokalen Regel. Während der Inferenz verlagert dies zusätzliche Berechnung in den Schlaf und bewahrt gleichzeitig die Latenzzeit der Vorhersage im Wachzustand. Wir testen unsere Methode an kontrollierten synthetischen Aufgaben, darunter zelluläre Automaten und Mehrsprung-Graphabruf, sowie an einer realistischen mathematischen Denkaufgabe, bei der ein regulärer Transformer sowie SSM-Aufmerksamkeits-Hybridmodelle versagen. Anschließend zeigen wir, dass eine Erhöhung der Schlafdauer N bei unseren Modellen die Leistung verbessert, wobei die größten Zugewinne bei Beispielen auftreten, die tiefere Überlegungen erfordern.

English

Transformer-based large language models are increasingly used for long-horizon tasks; however, their attention mechanism scales poorly with context length. To handle this, we study a sleep-like consolidation mechanism in which a model periodically converts recent context into persistent fast weights before clearing its key-value cache. During sleep, the model performs N offline recurrent passes over the accumulated context and updates the fast weights in its state-space model (SSM) blocks through a learned local rule. During inference, this shifts extra computation to sleep while preserving the latency of wake-time prediction. We test our method on controlled synthetic tasks, including cellular automata and multi-hop graph retrieval, as well as a realistic math reasoning task, on which a regular transformer as well as SSM-attention hybrid models fail. We then show that increasing sleep duration N for our models improves performance, with the largest gains on examples that require deeper reasoning.