Le Paradigme Pensine : Des modèles de langage avec état maîtrisant leur propre contexte

Résumé

Dans l'univers d'Harry Potter, lorsque l'esprit de Dumbledore est trop encombré, il extrait des souvenirs dans une Pensine pour les revoir plus tard. Dans le monde de l'IA, si nous possédons l'équivalent de la Pensine – des bases de données matures et des systèmes de récupération – nos modèles manquent inexplicablement de la « baguette magique » pour l'utiliser. Ils restent comme un Dumbledore sans autonomie, acceptant passivement un contexte élaboré manuellement comme leur mémoire entière. Ce travail place enfin la baguette dans la main du modèle. Nous présentons StateLM, une nouvelle classe de modèles de fondation dotés d'une boucle de raisonnement interne pour gérer leur propre état. Nous équipons notre modèle d'une suite d'outils de mémoire, tels que l'élagage de contexte, l'indexation de documents et la prise de notes, et nous l'entraînons à gérer activement ces outils. En apprenant à concevoir dynamiquement son propre contexte, notre modèle s'émancipe de la prison architecturale d'une fenêtre fixe. Des expériences sur diverses tailles de modèles démontrent l'efficacité de StateLM dans des scénarios variés. Sur les tâches de QA de documents longs, les StateLM surclassent systématiquement les LLM standards à toutes les échelles ; sur la tâche de mémoire de chat, ils obtiennent des améliorations de précision absolue de 10 % à 20 % par rapport aux LLM standards. Sur la tâche de recherche approfondie BrowseComp-Plus, l'écart de performance devient encore plus marqué : StateLM atteint jusqu'à 52 % de précision, tandis que les LLM standards peinent autour de 5 %. Au final, notre approche transforme les LLM de prédicteurs passifs en agents conscients de leur état, où le raisonnement devient un processus dynamique et gérable.

English

In the world of Harry Potter, when Dumbledore's mind is overburdened, he extracts memories into a Pensieve to be revisited later. In the world of AI, while we possess the Pensieve-mature databases and retrieval systems, our models inexplicably lack the "wand" to operate it. They remain like a Dumbledore without agency, passively accepting a manually engineered context as their entire memory. This work finally places the wand in the model's hand. We introduce StateLM, a new class of foundation models endowed with an internal reasoning loop to manage their own state. We equip our model with a suite of memory tools, such as context pruning, document indexing, and note-taking, and train it to actively manage these tools. By learning to dynamically engineering its own context, our model breaks free from the architectural prison of a fixed window. Experiments across various model sizes demonstrate StateLM's effectiveness across diverse scenarios. On long-document QA tasks, StateLMs consistently outperform standard LLMs across all model scales; on the chat memory task, they achieve absolute accuracy improvements of 10% to 20% over standard LLMs. On the deep research task BrowseComp-Plus, the performance gap becomes even more pronounced: StateLM achieves up to 52% accuracy, whereas standard LLM counterparts struggle around 5%. Ultimately, our approach shifts LLMs from passive predictors to state-aware agents where reasoning becomes a stateful and manageable process.

Le Paradigme Pensine : Des modèles de langage avec état maîtrisant leur propre contexte

The Pensieve Paradigm: Stateful Language Models Mastering Their Own Context

Résumé

Support