Das Pensieve-Paradigma: Zustandsbehaftete Sprachmodelle, die ihren eigenen Kontext beherrschen

Zusammenfassung

In der Welt von Harry Potter extrahiert Dumbledore Erinnerungen in ein Denkarium, wenn sein Geist überlastet ist, um sie später wieder abzurufen. In der Welt der KI verfügen wir zwar über das Äquivalent zum Denkarium – ausgereifte Datenbanken und Abfragesysteme –, doch unseren Modellen fehlt unerklärlicherweise der „Zauberstab“, um es zu bedienen. Sie bleiben wie ein handlungsunfähiger Dumbledore, der passiv einen manuell konstruierten Kontext als sein gesamtes Gedächtnis akzeptiert. Diese Arbeit gibt dem Modell endlich den Zauberstab in die Hand. Wir stellen StateLM vor, eine neue Klasse von Fundamentalmodelle, die mit einer internen Reasoning-Schleife zur Verwaltung ihres eigenen Zustands ausgestattet sind. Wir statten unser Modell mit einer Reihe von Gedächtniswerkzeugen aus, wie Kontextbereinigung, Dokumentenindexierung und Notizenfunktion, und trainieren es, diese Werkzeuge aktiv zu verwalten. Indem es lernt, seinen eigenen Kontext dynamisch zu gestalten, befreit sich unser Modell aus dem architektonischen Gefängnis eines festen Kontextfensters. Experimente mit verschiedenen Modellgrößen demonstrieren die Wirksamkeit von StateLM in diversen Szenarien. Bei Frage-Antwort-Aufgaben zu langen Dokumenten übertreffen StateLMs durchgängig Standard-LLMs über alle Modellgrößen hinweg; bei Chat-Memory-Aufgaben erzielen sie absolute Genauigkeitssteigerungen von 10 % bis 20 % gegenüber Standard-LLMs. Bei der anspruchsvollen Rechercheaufgabe BrowseComp-Plus wird die Leistungslücke noch deutlicher: StateLM erreicht bis zu 52 % Genauigkeit, wohingegen vergleichbare Standard-LLMs bei etwa 5 % kämpfen. Letztendlich verwandelt unser Ansatz LLMs von passiven Vorhersagemodellen in zustandsbewusste Agenten, bei denen Reasoning zu einem zustandsbehafteten und steuerbaren Prozess wird.

English

In the world of Harry Potter, when Dumbledore's mind is overburdened, he extracts memories into a Pensieve to be revisited later. In the world of AI, while we possess the Pensieve-mature databases and retrieval systems, our models inexplicably lack the "wand" to operate it. They remain like a Dumbledore without agency, passively accepting a manually engineered context as their entire memory. This work finally places the wand in the model's hand. We introduce StateLM, a new class of foundation models endowed with an internal reasoning loop to manage their own state. We equip our model with a suite of memory tools, such as context pruning, document indexing, and note-taking, and train it to actively manage these tools. By learning to dynamically engineering its own context, our model breaks free from the architectural prison of a fixed window. Experiments across various model sizes demonstrate StateLM's effectiveness across diverse scenarios. On long-document QA tasks, StateLMs consistently outperform standard LLMs across all model scales; on the chat memory task, they achieve absolute accuracy improvements of 10% to 20% over standard LLMs. On the deep research task BrowseComp-Plus, the performance gap becomes even more pronounced: StateLM achieves up to 52% accuracy, whereas standard LLM counterparts struggle around 5%. Ultimately, our approach shifts LLMs from passive predictors to state-aware agents where reasoning becomes a stateful and manageable process.

Das Pensieve-Paradigma: Zustandsbehaftete Sprachmodelle, die ihren eigenen Kontext beherrschen

The Pensieve Paradigm: Stateful Language Models Mastering Their Own Context

Zusammenfassung

Support