O Paradigma da Penseira: Modelos de Linguagem com Estado Dominando seu Próprio Contexto

Resumo

No mundo de Harry Potter, quando a mente de Dumbledore fica sobrecarregada, ele extrai memórias para uma Penseira para revisitá-las posteriormente. No mundo da IA, embora possuamos a Penseira - bancos de dados maduros e sistemas de recuperação - nossos modelos inexplicavelmente carecem da "varinha" para operá-la. Eles permanecem como um Dumbledore sem agência, aceitando passivamente um contexto manualmente elaborado como sua memória total. Este trabalho finalmente coloca a varinha na mão do modelo. Apresentamos o StateLM, uma nova classe de modelos fundamentais dotados de um loop interno de raciocínio para gerenciar seu próprio estado. Equipamos nosso modelo com um conjunto de ferramentas de memória, como poda de contexto, indexação de documentos e anotações, e o treinamos para gerenciar ativamente essas ferramentas. Ao aprender a elaborar dinamicamente seu próprio contexto, nosso modelo liberta-se da prisão arquitetônica de uma janela fixa. Experimentos em vários tamanhos de modelo demonstram a eficácia do StateLM em diversos cenários. Em tarefas de QA com documentos longos, os StateLMs superam consistentemente os LLMs padrão em todas as escalas de modelo; na tarefa de memória de chat, eles alcançam melhorias de precisão absoluta de 10% a 20% sobre os LLMs padrão. Na tarefa de pesquisa profunda BrowseComp-Plus, a diferença de desempenho torna-se ainda mais pronunciada: o StateLM atinge até 52% de precisão, enquanto os LLMs padrão equivalentes lutam em torno de 5%. Por fim, nossa abordagem transforma os LLMs de preditores passivos em agentes conscientes do estado, onde o raciocínio se torna um processo com estado e gerenciável.

English

In the world of Harry Potter, when Dumbledore's mind is overburdened, he extracts memories into a Pensieve to be revisited later. In the world of AI, while we possess the Pensieve-mature databases and retrieval systems, our models inexplicably lack the "wand" to operate it. They remain like a Dumbledore without agency, passively accepting a manually engineered context as their entire memory. This work finally places the wand in the model's hand. We introduce StateLM, a new class of foundation models endowed with an internal reasoning loop to manage their own state. We equip our model with a suite of memory tools, such as context pruning, document indexing, and note-taking, and train it to actively manage these tools. By learning to dynamically engineering its own context, our model breaks free from the architectural prison of a fixed window. Experiments across various model sizes demonstrate StateLM's effectiveness across diverse scenarios. On long-document QA tasks, StateLMs consistently outperform standard LLMs across all model scales; on the chat memory task, they achieve absolute accuracy improvements of 10% to 20% over standard LLMs. On the deep research task BrowseComp-Plus, the performance gap becomes even more pronounced: StateLM achieves up to 52% accuracy, whereas standard LLM counterparts struggle around 5%. Ultimately, our approach shifts LLMs from passive predictors to state-aware agents where reasoning becomes a stateful and manageable process.

O Paradigma da Penseira: Modelos de Linguagem com Estado Dominando seu Próprio Contexto

The Pensieve Paradigm: Stateful Language Models Mastering Their Own Context

Resumo

Support