Panini: Kontinuierliches Lernen im Token-Raum durch strukturierten Speicher
Panini: Continual Learning in Token Space via Structured Memory
February 16, 2026
papers.authors: Shreyas Rajesh, Pavan Holur, Mehmet Yigit Turali, Chenda Duan, Vwani Roychowdhury
cs.AI
papers.abstract
Sprachmodelle werden zunehmend eingesetzt, um über Inhalte zu schlussfolgern, auf die sie nicht trainiert wurden, wie neue Dokumente, sich entwickelndes Wissen und benutzerspezifische Daten. Ein gängiger Ansatz ist retrieval-augmented generation (RAG), bei dem Dokumente wörtlich extern (in Chunks) gespeichert und zur Inferenzzeit nur eine relevante Teilmenge für ein LLM zum Schlussfolgern abgerufen werden. Dies führt jedoch zu einer ineffizienten Nutzung der Rechenleistung zur Testzeit (das LLM schlussfolgert wiederholt über dieselben Dokumente); außerdem kann das Abrufen von Chunks irrelevante Kontexte einspielen, die ungestützte Generierung erhöhen. Wir schlagen ein menschenähnliches nichtparametrisches Framework für kontinuierliches Lernen vor, bei dem das Basismodell unverändert bleibt und das Lernen durch die Integration jeder neuen Erfahrung in einen externen semantischen Gedächtniszustand erfolgt, der sich kontinuierlich akkumuliert und konsolidiert. Wir stellen Panini vor, das dies realisiert, indem Dokumente als Generative Semantic Workspaces (GSW) repräsentiert werden – ein entitäts- und ereignisbasiertes Netzwerk von Frage-Antwort-Paaren, das ausreicht, damit ein LLM die erfahrenen Situationen rekonstruieren und latentes Wissen über reasoning-gestützte Inferenzketten im Netzwerk erschließen kann. Bei einer Anfrage durchläuft Panini nur den kontinuierlich aktualisierten GSW (nicht die wörtlichen Dokumente oder Chunks) und ruft die wahrscheinlichsten Inferenzketten ab. Über sechs QA-Benchmarks hinweg erzielt Panini die höchste durchschnittliche Leistung, 5–7 % höher als andere wettbewerbsfähige Baseline-Modelle, bei gleichzeitiger Verwendung von 2–30 mal weniger Antwort-Kontext-Tokens, Unterstützung vollständig quelloffener Pipelines und Reduzierung ungestützter Antworten auf kuratierte unbeantwortbare Anfragen. Die Ergebnisse zeigen, dass eine effiziente und präzise Strukturierung von Erfahrungen zum Zeitpunkt der Speicherung – wie sie durch das GSW-Framework erreicht wird – sowohl Effizienz- als auch Zuverlässigkeitsgewinne zum Lesezeitpunkt bringt. Der Code ist verfügbar unter https://github.com/roychowdhuryresearch/gsw-memory.
English
Language models are increasingly used to reason over content they were not trained on, such as new documents, evolving knowledge, and user-specific data. A common approach is retrieval-augmented generation (RAG), which stores verbatim documents externally (as chunks) and retrieves only a relevant subset at inference time for an LLM to reason over. However, this results in inefficient usage of test-time compute (LLM repeatedly reasons over the same documents); moreover, chunk retrieval can inject irrelevant context that increases unsupported generation. We propose a human-like non-parametric continual learning framework, where the base model remains fixed, and learning occurs by integrating each new experience into an external semantic memory state that accumulates and consolidates itself continually. We present Panini, which realizes this by representing documents as Generative Semantic Workspaces (GSW) -- an entity- and event-aware network of question-answer (QA) pairs, sufficient for an LLM to reconstruct the experienced situations and mine latent knowledge via reasoning-grounded inference chains on the network. Given a query, Panini only traverses the continually-updated GSW (not the verbatim documents or chunks), and retrieves the most likely inference chains. Across six QA benchmarks, Panini achieves the highest average performance, 5%-7% higher than other competitive baselines, while using 2-30x fewer answer-context tokens, supports fully open-source pipelines, and reduces unsupported answers on curated unanswerable queries. The results show that efficient and accurate structuring of experiences at write time -- as achieved by the GSW framework -- yields both efficiency and reliability gains at read time. Code is available at https://github.com/roychowdhuryresearch/gsw-memory.