Les modèles de langage ont besoin de sommeil

Résumé

Les grands modèles de langage basés sur les transformeurs sont de plus en plus utilisés pour des tâches à long horizon ; cependant, leur mécanisme d’attention se dégrade mal avec la longueur du contexte. Pour y remédier, nous étudions un mécanisme de consolidation de type sommeil, dans lequel un modèle convertit périodiquement le contexte récent en poids rapides persistants avant de vider son cache clé-valeur. Pendant le sommeil, le modèle effectue N passages récurrents hors ligne sur le contexte accumulé et met à jour les poids rapides dans ses blocs de modèle à espace d’états (SSM) via une règle locale apprise. Lors de l’inférence, cela reporte le calcul supplémentaire au moment du sommeil tout en préservant la latence de la prédiction en phase d’éveil. Nous testons notre méthode sur des tâches synthétiques contrôlées, notamment des automates cellulaires et la récupération de graphe multi-sauts, ainsi que sur une tâche réaliste de raisonnement mathématique, sur lesquelles un transformeur classique ainsi que des modèles hybrides SSM-attention échouent. Nous montrons ensuite qu’augmenter la durée du sommeil N pour nos modèles améliore les performances, avec les gains les plus importants sur les exemples qui nécessitent un raisonnement plus profond.

English

Transformer-based large language models are increasingly used for long-horizon tasks; however, their attention mechanism scales poorly with context length. To handle this, we study a sleep-like consolidation mechanism in which a model periodically converts recent context into persistent fast weights before clearing its key-value cache. During sleep, the model performs N offline recurrent passes over the accumulated context and updates the fast weights in its state-space model (SSM) blocks through a learned local rule. During inference, this shifts extra computation to sleep while preserving the latency of wake-time prediction. We test our method on controlled synthetic tasks, including cellular automata and multi-hop graph retrieval, as well as a realistic math reasoning task, on which a regular transformer as well as SSM-attention hybrid models fail. We then show that increasing sleep duration N for our models improves performance, with the largest gains on examples that require deeper reasoning.