ChatPaper.aiChatPaper

Panini : Apprentissage continu dans l'espace des tokens via une mémoire structurée

Panini: Continual Learning in Token Space via Structured Memory

February 16, 2026
papers.authors: Shreyas Rajesh, Pavan Holur, Mehmet Yigit Turali, Chenda Duan, Vwani Roychowdhury
cs.AI

papers.abstract

Les modèles de langage sont de plus en plus utilisés pour raisonner sur des contenus sur lesquels ils n'ont pas été entraînés, tels que de nouveaux documents, des connaissances évolutives et des données spécifiques à l'utilisateur. Une approche courante est la génération augmentée par retrieval (RAG), qui stocke des documents textuels externes (sous forme de segments) et ne récupère qu'un sous-ensemble pertinent au moment de l'inférence pour qu'un LLM puisse raisonner dessus. Cependant, cela entraîne une utilisation inefficace des calculs au moment du test (le LLM raisonne à plusieurs reprises sur les mêmes documents) ; de plus, la récupération de segments peut injecter un contexte non pertinent qui augmente la génération non fondée. Nous proposons un cadre d'apprentissage continu non paramétrique semblable à l'humain, où le modèle de base reste fixe, et l'apprentissage se fait en intégrant chaque nouvelle expérience dans un état de mémoire sémantique externe qui s'accumule et se consolide continuellement. Nous présentons Panini, qui réalise cela en représentant les documents comme des Espaces Sémantiques Génératifs (GSW) – un réseau de paires question-réponse (QA) conscient des entités et des événements, suffisant pour qu'un LLM reconstruise les situations vécues et extraie des connaissances latentes via des chaînes d'inférence ancrées dans le raisonnement sur le réseau. Étant donné une requête, Panini ne parcourt que le GSW continuellement mis à jour (et non les documents ou segments textuels), et récupère les chaînes d'inférence les plus probables. Sur six benchmarks de QA, Panini obtient les performances moyennes les plus élevées, 5 % à 7 % supérieures à celles d'autres bases de référence compétitives, tout en utilisant 2 à 30 fois moins de tokens de contexte-réponse, en prenant en charge des pipelines entièrement open source et en réduisant les réponses non fondées sur des requêtes non solubles triées sur le volet. Les résultats montrent qu'une structuration efficace et précise des expériences au moment de l'écriture – telle que réalisée par le cadre GSW – permet des gains d'efficacité et de fiabilité au moment de la lecture. Le code est disponible à l'adresse https://github.com/roychowdhuryresearch/gsw-memory.
English
Language models are increasingly used to reason over content they were not trained on, such as new documents, evolving knowledge, and user-specific data. A common approach is retrieval-augmented generation (RAG), which stores verbatim documents externally (as chunks) and retrieves only a relevant subset at inference time for an LLM to reason over. However, this results in inefficient usage of test-time compute (LLM repeatedly reasons over the same documents); moreover, chunk retrieval can inject irrelevant context that increases unsupported generation. We propose a human-like non-parametric continual learning framework, where the base model remains fixed, and learning occurs by integrating each new experience into an external semantic memory state that accumulates and consolidates itself continually. We present Panini, which realizes this by representing documents as Generative Semantic Workspaces (GSW) -- an entity- and event-aware network of question-answer (QA) pairs, sufficient for an LLM to reconstruct the experienced situations and mine latent knowledge via reasoning-grounded inference chains on the network. Given a query, Panini only traverses the continually-updated GSW (not the verbatim documents or chunks), and retrieves the most likely inference chains. Across six QA benchmarks, Panini achieves the highest average performance, 5%-7% higher than other competitive baselines, while using 2-30x fewer answer-context tokens, supports fully open-source pipelines, and reduces unsupported answers on curated unanswerable queries. The results show that efficient and accurate structuring of experiences at write time -- as achieved by the GSW framework -- yields both efficiency and reliability gains at read time. Code is available at https://github.com/roychowdhuryresearch/gsw-memory.
PDF41February 19, 2026