Парадигма Омута Памяти: Модели языка с сохранением состояния, осваивающие собственный контекст

Аннотация

В мире Гарри Поттера, когда разум Дамблдора перегружен, он извлекает воспоминания в Омут Памяти, чтобы вернуться к ним позже. В мире ИИ, хотя у нас и есть аналог Омута Памяти — зрелые базы данных и системы поиска, — наши модели, по необъяснимой причине, лишены «волшебной палочки» для управления им. Они остаются подобно Дамблдору, лишенному возможности действовать, пассивно принимая вручную сконструированный контекст в качестве всей своей памяти. Данная работа наконец вручает эту палочку модели. Мы представляем StateLM — новый класс базовых моделей, наделенных внутренним циклом рассуждений для управления собственным состоянием. Мы оснащаем нашу модель набором инструментов памяти, таких как обрезка контекста, индексация документов и ведение записей, и обучаем ее активно управлять этими инструментами. Научившись динамически формировать собственный контекст, наша модель вырывается из архитектурной тюрьмы фиксированного окна. Эксперименты с моделями разного размера демонстрируют эффективность StateLM в различных сценариях. В задачах вопросно-ответных систем для длинных документов StateLM стабильно превосходят стандартные большие языковые модели на всех масштабах; в задаче чата с памятью они достигают абсолютного улучшения точности на 10–20% по сравнению со стандартными LLM. В задаче углубленного исследования BrowseComp-Plus разрыв в производительности становится еще более выраженным: StateLM достигает точности до 52%, в то время как стандартные LLM показывают результат около 5%. В конечном счете, наш подход превращает LLM из пассивных предсказателей в агентов, осознающих состояние, где рассуждение становится управляемым процессом, зависящим от этого состояния.

English

In the world of Harry Potter, when Dumbledore's mind is overburdened, he extracts memories into a Pensieve to be revisited later. In the world of AI, while we possess the Pensieve-mature databases and retrieval systems, our models inexplicably lack the "wand" to operate it. They remain like a Dumbledore without agency, passively accepting a manually engineered context as their entire memory. This work finally places the wand in the model's hand. We introduce StateLM, a new class of foundation models endowed with an internal reasoning loop to manage their own state. We equip our model with a suite of memory tools, such as context pruning, document indexing, and note-taking, and train it to actively manage these tools. By learning to dynamically engineering its own context, our model breaks free from the architectural prison of a fixed window. Experiments across various model sizes demonstrate StateLM's effectiveness across diverse scenarios. On long-document QA tasks, StateLMs consistently outperform standard LLMs across all model scales; on the chat memory task, they achieve absolute accuracy improvements of 10% to 20% over standard LLMs. On the deep research task BrowseComp-Plus, the performance gap becomes even more pronounced: StateLM achieves up to 52% accuracy, whereas standard LLM counterparts struggle around 5%. Ultimately, our approach shifts LLMs from passive predictors to state-aware agents where reasoning becomes a stateful and manageable process.

Парадигма Омута Памяти: Модели языка с сохранением состояния, осваивающие собственный контекст

The Pensieve Paradigm: Stateful Language Models Mastering Their Own Context

Аннотация

Support