Het Pensief Paradigma: Statevolle Taalmodellen die hun Eigen Context Beheersen

Samenvatting

In de wereld van Harry Potter, wanneer het brein van Perkamentus overbelast raakt, slaat hij herinneringen op in een Hersenpan om ze later opnieuw te bekijken. In de wereld van AI beschikken we wel over Hersenpan-rijpe databases en retrievalsystemen, maar onze modellen missen onverklaarbaar de "tovenaarsstaf" om deze te bedienen. Ze blijven als een Perkamentus zonder agency, die passief een handmatig geconstrueerde context als hun volledige geheugen accepteert. Dit werk plaatst eindelijk de toverstaf in handen van het model. Wij introduceren StateLM, een nieuwe klasse foundation-modellen die zijn uitgerust met een interne redeneerlus om hun eigen staat te beheren. We rusten ons model uit met een reeks geheugenhulpmiddelen, zoals context-snoei, documentindexering en notitiefunctionaliteit, en trainen het om deze hulpmiddelen actief te beheren. Door te leren zijn eigen context dynamisch te construeren, bevrijdt ons model zichzelf uit de architectonische gevangenis van een vast venster. Experimenten met diverse modelgroottes tonen de effectiviteit van StateLM aan in uiteenlopende scenario's. Bij QA-taken voor lange documenten presteren StateLM's consistent beter dan standaard LLM's op alle modelschalen; bij de chatgeheugentaak behalen ze absolute nauwkeurigheidsverbeteringen van 10% tot 20% ten opzichte van standaard LLM's. Op de diepgaande onderzoekstaak BrowseComp-Plus wordt de prestatiekloof nog duidelijker: StateLM behaalt tot 52% nauwkeurigheid, terwijl standaard LLM's rond de 5% blijven steken. Uiteindelijk transformeert onze aanpak LLM's van passieve voorspellers naar state-aware agents, waarbij redeneren een stateful en beheersbaar proces wordt.

English

In the world of Harry Potter, when Dumbledore's mind is overburdened, he extracts memories into a Pensieve to be revisited later. In the world of AI, while we possess the Pensieve-mature databases and retrieval systems, our models inexplicably lack the "wand" to operate it. They remain like a Dumbledore without agency, passively accepting a manually engineered context as their entire memory. This work finally places the wand in the model's hand. We introduce StateLM, a new class of foundation models endowed with an internal reasoning loop to manage their own state. We equip our model with a suite of memory tools, such as context pruning, document indexing, and note-taking, and train it to actively manage these tools. By learning to dynamically engineering its own context, our model breaks free from the architectural prison of a fixed window. Experiments across various model sizes demonstrate StateLM's effectiveness across diverse scenarios. On long-document QA tasks, StateLMs consistently outperform standard LLMs across all model scales; on the chat memory task, they achieve absolute accuracy improvements of 10% to 20% over standard LLMs. On the deep research task BrowseComp-Plus, the performance gap becomes even more pronounced: StateLM achieves up to 52% accuracy, whereas standard LLM counterparts struggle around 5%. Ultimately, our approach shifts LLMs from passive predictors to state-aware agents where reasoning becomes a stateful and manageable process.

Het Pensief Paradigma: Statevolle Taalmodellen die hun Eigen Context Beheersen

The Pensieve Paradigm: Stateful Language Models Mastering Their Own Context

Samenvatting

Support