Panini: Continueel Leren in Tokenruimte via Gestructureerd Geheugen

Samenvatting

Taalmodelen worden steeds vaker ingezet om te redeneren over inhoud waarop ze niet zijn getraind, zoals nieuwe documenten, evoluerende kennis en gebruikersspecifieke gegevens. Een gangbare aanpak is retrieval-augmented generation (RAG), waarbij documenten letterlijk extern worden opgeslagen (als chunks) en alleen een relevante subset tijdens inferentie wordt opgehaald voor een LLM om over te redeneren. Dit leidt echter tot inefficiënt gebruik van rekencapaciteit tijdens testtijd (de LLM redeneert herhaaldelijk over dezelfde documenten); bovendien kan chunk-retrieval irrelevante context injecteren die ongefundeerde generatie bevordert. Wij stellen een mensachtig niet-parametrisch continu-leerkader voor, waarbij het basismodel ongewijzigd blijft en leren plaatsvindt door elke nieuwe ervaring te integreren in een externe semantische geheugenstatus die zich continu accumuleert en consolideert. Wij presenteren Panini, dat dit realiseert door documenten voor te stellen als Generative Semantic Workspaces (GSW) – een entiteits- en gebeurtenisbewust netwerk van vraag-antwoordparen (QA), voldoende voor een LLM om de ervaren situaties te reconstrueren en latente kennis te ontginnen via op redenering gebaseerde inferentieketens op het netwerk. Gegeven een query, doorloopt Panini alleen de continu bijgewerkte GSW (niet de letterlijke documenten of chunks), en haalt de meest waarschijnlijke inferentieketens op. Over zes QA-benchmarks behaalt Panini de hoogste gemiddelde prestatie, 5%-7% hoger dan andere competitieve basismodellen, terwijl het 2-30x minder antwoord-contexttokens gebruikt, volledig open-source pipelines ondersteunt en ongefundeerde antwoorden op gecureerde onbeantwoordbare queries reduceert. De resultaten tonen aan dat efficiënte en accurate structurering van ervaringen tijdens schrijftijd – zoals bereikt door het GSW-kader – zowel efficiëntie- als betrouwbaarheidswinst oplevert tijdens leestijd. Code is beschikbaar op https://github.com/roychowdhuryresearch/gsw-memory.

English

Language models are increasingly used to reason over content they were not trained on, such as new documents, evolving knowledge, and user-specific data. A common approach is retrieval-augmented generation (RAG), which stores verbatim documents externally (as chunks) and retrieves only a relevant subset at inference time for an LLM to reason over. However, this results in inefficient usage of test-time compute (LLM repeatedly reasons over the same documents); moreover, chunk retrieval can inject irrelevant context that increases unsupported generation. We propose a human-like non-parametric continual learning framework, where the base model remains fixed, and learning occurs by integrating each new experience into an external semantic memory state that accumulates and consolidates itself continually. We present Panini, which realizes this by representing documents as Generative Semantic Workspaces (GSW) -- an entity- and event-aware network of question-answer (QA) pairs, sufficient for an LLM to reconstruct the experienced situations and mine latent knowledge via reasoning-grounded inference chains on the network. Given a query, Panini only traverses the continually-updated GSW (not the verbatim documents or chunks), and retrieves the most likely inference chains. Across six QA benchmarks, Panini achieves the highest average performance, 5%-7% higher than other competitive baselines, while using 2-30x fewer answer-context tokens, supports fully open-source pipelines, and reduces unsupported answers on curated unanswerable queries. The results show that efficient and accurate structuring of experiences at write time -- as achieved by the GSW framework -- yields both efficiency and reliability gains at read time. Code is available at https://github.com/roychowdhuryresearch/gsw-memory.

Panini: Continueel Leren in Tokenruimte via Gestructureerd Geheugen

Panini: Continual Learning in Token Space via Structured Memory

Samenvatting

Support