Taalmodellen hebben slaap nodig

Samenvatting

Op transformatoren gebaseerde grote taalmodellen worden steeds vaker gebruikt voor taken met een lange tijdshorizon; hun aandachtsmechanisme schaalt echter slecht met de contextlengte. Om dit aan te pakken, bestuderen we een slaapachtig consolidatiemechanisme waarin een model periodiek recente context omzet in persistente snelle gewichten voordat het de key-value cache wist. Tijdens de slaap voert het model N offline recurrente passages uit over de geaccumuleerde context en werkt het de snelle gewichten in de toestandsruimtemodel (SSM) blokken bij via een aangeleerde lokale regel. Tijdens de inferentie verplaatst dit extra berekening naar de slaap, terwijl de latentie van voorspelling tijdens wakkertijd behouden blijft. We testen onze methode op gecontroleerde synthetische taken, waaronder cellulaire automaten en multi-hop graafretrieval, evenals een realistische wiskundige redeneertaak, waar een reguliere transformator en SSM-aandacht hybride modellen falen. Vervolgens tonen we aan dat het verhogen van de slaapduur N voor onze modellen de prestaties verbetert, met de grootste winst bij voorbeelden die diepere redenering vereisen.

English

Transformer-based large language models are increasingly used for long-horizon tasks; however, their attention mechanism scales poorly with context length. To handle this, we study a sleep-like consolidation mechanism in which a model periodically converts recent context into persistent fast weights before clearing its key-value cache. During sleep, the model performs N offline recurrent passes over the accumulated context and updates the fast weights in its state-space model (SSM) blocks through a learned local rule. During inference, this shifts extra computation to sleep while preserving the latency of wake-time prediction. We test our method on controlled synthetic tasks, including cellular automata and multi-hop graph retrieval, as well as a realistic math reasoning task, on which a regular transformer as well as SSM-attention hybrid models fail. We then show that increasing sleep duration N for our models improves performance, with the largest gains on examples that require deeper reasoning.