ChatPaper.aiChatPaper

Panini: Apprendimento Continuo nello Spazio dei Token tramite Memoria Strutturata

Panini: Continual Learning in Token Space via Structured Memory

February 16, 2026
Autori: Shreyas Rajesh, Pavan Holur, Mehmet Yigit Turali, Chenda Duan, Vwani Roychowdhury
cs.AI

Abstract

I modelli linguistici sono sempre più utilizzati per ragionare su contenuti su cui non sono stati addestrati, come nuovi documenti, conoscenze in evoluzione e dati specifici dell'utente. Un approccio comune è la generazione aumentata dal recupero (RAG), che memorizza i documenti testuali in modo esterno (come frammenti) e recupera solo un sottoinsieme rilevante al momento dell'inferenza su cui un LLM può ragionare. Tuttavia, ciò comporta un uso inefficiente della potenza di calcolo durante il test (l'LLM ragiona ripetutamente sugli stessi documenti); inoltre, il recupero di frammenti può introdurre contesto irrilevante che aumenta la generazione non supportata. Proponiamo un framework di apprendimento continuo non parametrico di tipo umano, in cui il modello base rimane fisso e l'apprendimento avviene integrando ogni nuova esperienza in uno stato di memoria semantica esterno che si accumula e si consolida continuamente. Presentiamo Panini, che realizza ciò rappresentando i documenti come Spazi di Lavoro Semantici Generativi (GSW) – una rete consapevole di entità ed eventi composta da coppie domanda-risposta (QA), sufficiente affinché un LLM ricostruisca le situazioni vissute ed estragga conoscenze latenti tramite catene inferenziali fondate sul ragionamento sulla rete. Data una query, Panini attraversa solo il GSW in continuo aggiornamento (non i documenti testuali o i frammenti) e recupera le catene inferenziali più probabili. Su sei benchmark di QA, Panini raggiunge le prestazioni medie più elevate, dal 5% al 7% superiori rispetto ad altre baseline competitive, utilizzando da 2 a 30 volte meno token di contesto-risposta, supporta pipeline completamente open-source e riduce le risposte non supportate su query curate senza risposta. I risultati mostrano che una strutturazione efficiente e accurata delle esperienze al momento della scrittura – come ottenuta dal framework GSW – produce guadagni sia in termini di efficienza che di affidabilità al momento della lettura. Il codice è disponibile all'indirizzo https://github.com/roychowdhuryresearch/gsw-memory.
English
Language models are increasingly used to reason over content they were not trained on, such as new documents, evolving knowledge, and user-specific data. A common approach is retrieval-augmented generation (RAG), which stores verbatim documents externally (as chunks) and retrieves only a relevant subset at inference time for an LLM to reason over. However, this results in inefficient usage of test-time compute (LLM repeatedly reasons over the same documents); moreover, chunk retrieval can inject irrelevant context that increases unsupported generation. We propose a human-like non-parametric continual learning framework, where the base model remains fixed, and learning occurs by integrating each new experience into an external semantic memory state that accumulates and consolidates itself continually. We present Panini, which realizes this by representing documents as Generative Semantic Workspaces (GSW) -- an entity- and event-aware network of question-answer (QA) pairs, sufficient for an LLM to reconstruct the experienced situations and mine latent knowledge via reasoning-grounded inference chains on the network. Given a query, Panini only traverses the continually-updated GSW (not the verbatim documents or chunks), and retrieves the most likely inference chains. Across six QA benchmarks, Panini achieves the highest average performance, 5%-7% higher than other competitive baselines, while using 2-30x fewer answer-context tokens, supports fully open-source pipelines, and reduces unsupported answers on curated unanswerable queries. The results show that efficient and accurate structuring of experiences at write time -- as achieved by the GSW framework -- yields both efficiency and reliability gains at read time. Code is available at https://github.com/roychowdhuryresearch/gsw-memory.
PDF62March 25, 2026