El Paradigma del Pensadero: Modelos de Lenguaje con Estado que Dominan su Propio Contexto

Resumen

En el mundo de Harry Potter, cuando la mente de Dumbledore está sobrecargada, extrae recuerdos en un Pensadero para revisarlos más tarde. En el mundo de la IA, si bien poseemos el equivalente al Pensadero —bases de datos maduras y sistemas de recuperación—, nuestros modelos carecen inexplicablemente de la "varita" para operarlo. Siguen siendo como un Dumbledore sin agencia, aceptando pasivamente un contexto diseñado manualmente como toda su memoria. Este trabajo finalmente coloca la varita en la mano del modelo. Presentamos StateLM, una nueva clase de modelos de base dotados de un bucle de razonamiento interno para gestionar su propio estado. Equipamos nuestro modelo con un conjunto de herramientas de memoria, como la poda de contexto, la indexación de documentos y la toma de notas, y lo entrenamos para gestionar activamente estas herramientas. Al aprender a diseñar dinámicamente su propio contexto, nuestro modelo se libera de la prisión arquitectónica de una ventana fija. Los experimentos en varios tamaños de modelo demuestran la eficacia de StateLM en diversos escenarios. En tareas de preguntas y respuestas sobre documentos largos, los StateLM superan consistentemente a los LLM estándar en todas las escalas de modelo; en la tarea de memoria de chat, logran mejoras de precisión absoluta del 10% al 20% sobre los LLM estándar. En la tarea de investigación profunda BrowseComp-Plus, la brecha de rendimiento se vuelve aún más pronunciada: StateLM alcanza hasta un 52% de precisión, mientras que los LLM estándar equivalentes se sitúan alrededor del 5%. En última instancia, nuestro enfoque traslada a los LLM de ser predictores pasivos a agentes conscientes del estado, donde el razonamiento se convierte en un proceso con estado y gestionable.

English

In the world of Harry Potter, when Dumbledore's mind is overburdened, he extracts memories into a Pensieve to be revisited later. In the world of AI, while we possess the Pensieve-mature databases and retrieval systems, our models inexplicably lack the "wand" to operate it. They remain like a Dumbledore without agency, passively accepting a manually engineered context as their entire memory. This work finally places the wand in the model's hand. We introduce StateLM, a new class of foundation models endowed with an internal reasoning loop to manage their own state. We equip our model with a suite of memory tools, such as context pruning, document indexing, and note-taking, and train it to actively manage these tools. By learning to dynamically engineering its own context, our model breaks free from the architectural prison of a fixed window. Experiments across various model sizes demonstrate StateLM's effectiveness across diverse scenarios. On long-document QA tasks, StateLMs consistently outperform standard LLMs across all model scales; on the chat memory task, they achieve absolute accuracy improvements of 10% to 20% over standard LLMs. On the deep research task BrowseComp-Plus, the performance gap becomes even more pronounced: StateLM achieves up to 52% accuracy, whereas standard LLM counterparts struggle around 5%. Ultimately, our approach shifts LLMs from passive predictors to state-aware agents where reasoning becomes a stateful and manageable process.