Il Paradigma del Pensatoio: Modelli Linguistici con Stato che Padroneggiano il Proprio Contesto

Abstract

Nel mondo di Harry Potter, quando la mente di Silente è sovraccarica, estrae i ricordi in un Pensatoio per riesaminarli successivamente. Nel mondo dell'IA, sebbene possediamo l'equivalente del Pensatoio - database maturi e sistemi di retrieval - i nostri modelli mancano inspiegabilmente della "bacchetta" per utilizzarlo. Rimangono come un Silente privo di agency, accettando passivamente un contesto ingegnerizzato manualmente come unica memoria. Questo lavoro finalmente consegna la bacchetta al modello. Introduciamo StateLM, una nuova classe di modelli di fondazione dotati di un loop di ragionamento interno per gestire il proprio stato. Dotiamo il nostro modello di una suite di strumenti mnemonici, come potatura del contesto, indicizzazione di documenti e annotazioni, e lo addestriamo a gestire attivamente questi strumenti. Imparando a ingegnerizzare dinamicamente il proprio contesto, il nostro modello si libera dalla prigione architetturale della finestra fissa. Esperimenti su varie dimensioni di modello dimostrano l'efficacia di StateLM in scenari diversificati. Su task di QA per documenti lunghi, gli StateLM superano costantemente gli LLM standard a tutte le scale; sul task di memoria conversazionale, ottengono miglioramenti assoluti di accuratezza del 10-20% rispetto agli LLM standard. Sul task di ricerca approfondita BrowseComp-Plus, il divario prestazionale diventa ancora più marcato: StateLM raggiunge fino al 52% di accuratezza, mentre le controparti LLM standard si attestano intorno al 5%. In definitiva, il nostro approccio trasforma gli LLM da predittori passivi ad agenti state-aware, dove il ragionamento diventa un processo stateful e gestibile.

English

In the world of Harry Potter, when Dumbledore's mind is overburdened, he extracts memories into a Pensieve to be revisited later. In the world of AI, while we possess the Pensieve-mature databases and retrieval systems, our models inexplicably lack the "wand" to operate it. They remain like a Dumbledore without agency, passively accepting a manually engineered context as their entire memory. This work finally places the wand in the model's hand. We introduce StateLM, a new class of foundation models endowed with an internal reasoning loop to manage their own state. We equip our model with a suite of memory tools, such as context pruning, document indexing, and note-taking, and train it to actively manage these tools. By learning to dynamically engineering its own context, our model breaks free from the architectural prison of a fixed window. Experiments across various model sizes demonstrate StateLM's effectiveness across diverse scenarios. On long-document QA tasks, StateLMs consistently outperform standard LLMs across all model scales; on the chat memory task, they achieve absolute accuracy improvements of 10% to 20% over standard LLMs. On the deep research task BrowseComp-Plus, the performance gap becomes even more pronounced: StateLM achieves up to 52% accuracy, whereas standard LLM counterparts struggle around 5%. Ultimately, our approach shifts LLMs from passive predictors to state-aware agents where reasoning becomes a stateful and manageable process.

Il Paradigma del Pensatoio: Modelli Linguistici con Stato che Padroneggiano il Proprio Contesto

The Pensieve Paradigm: Stateful Language Models Mastering Their Own Context

Abstract

Support