Pensieveパラダイム:独自のコンテクストを掌握するステートフル言語モデル
The Pensieve Paradigm: Stateful Language Models Mastering Their Own Context
February 12, 2026
著者: Xiaoyuan Liu, Tian Liang, Dongyang Ma, Deyu Zhou, Haitao Mi, Pinjia He, Yan Wang
cs.AI
要旨
ハリー・ポッターの世界では、ダンブルドアが記憶で頭が一杯になると、ペンシーブに記憶を抽出して後で参照できるようにする。AIの世界では、我々はペンシーブに相当する成熟したデータベースと検索システムを有しているにも関わらず、モデルにはそれを操作する「杖」が不可解にも欠けている。現在のモデルは、能動性を持たないダンブルドアのように、手動で設計されたコンテキストを受動的に受け入れ、それを自身の記憶の全てとしている。本研究はついに、モデルの手に杖を渡す。我々はStateLMを提案する。これは内部推論ループを備え、自身の状態を管理できる新しい基盤モデルのクラスである。我々はモデルに、コンテキスト剪定、文書索引付け、メモ取りといった記憶ツール群を装備し、これらのツールを能動的に管理するように訓練する。自身のコンテキストを動的に設計することを学ぶことで、モデルは固定長ウィンドウという建築的な牢獄から脱却する。様々なモデルサイズでの実験により、StateLMが多様なシナリオで有効であることを実証する。長文書QAタスクでは、StateLMは全てのモデル規模で標準的なLLMを一貫して上回り、チャット記憶タスクでは、標準的なLLMに対し10%から20%の絶対精度向上を達成する。深層調査タスクBrowseComp-Plusでは、この性能差はさらに顕著となる。StateLMは最大52%の精度を達成するのに対し、標準的なLLMは約5%で苦戦する。最終的に、我々のアプローチはLLMを受動的な予測器から、推論が状態を保持し管理可能なプロセスとなる、状態を意識したエージェントへと転換する。
English
In the world of Harry Potter, when Dumbledore's mind is overburdened, he extracts memories into a Pensieve to be revisited later. In the world of AI, while we possess the Pensieve-mature databases and retrieval systems, our models inexplicably lack the "wand" to operate it. They remain like a Dumbledore without agency, passively accepting a manually engineered context as their entire memory. This work finally places the wand in the model's hand. We introduce StateLM, a new class of foundation models endowed with an internal reasoning loop to manage their own state. We equip our model with a suite of memory tools, such as context pruning, document indexing, and note-taking, and train it to actively manage these tools. By learning to dynamically engineering its own context, our model breaks free from the architectural prison of a fixed window. Experiments across various model sizes demonstrate StateLM's effectiveness across diverse scenarios. On long-document QA tasks, StateLMs consistently outperform standard LLMs across all model scales; on the chat memory task, they achieve absolute accuracy improvements of 10% to 20% over standard LLMs. On the deep research task BrowseComp-Plus, the performance gap becomes even more pronounced: StateLM achieves up to 52% accuracy, whereas standard LLM counterparts struggle around 5%. Ultimately, our approach shifts LLMs from passive predictors to state-aware agents where reasoning becomes a stateful and manageable process.