ChatPaper.aiChatPaper

Panini: Aprendizaje Continuo en el Espacio de Tokens mediante Memoria Estructurada

Panini: Continual Learning in Token Space via Structured Memory

February 16, 2026
Autores: Shreyas Rajesh, Pavan Holur, Mehmet Yigit Turali, Chenda Duan, Vwani Roychowdhury
cs.AI

Resumen

Los modelos de lenguaje se utilizan cada vez más para razonar sobre contenido en el que no fueron entrenados, como documentos nuevos, conocimientos en evolución y datos específicos del usuario. Un enfoque común es la generación aumentada por recuperación (RAG), que almacena documentos textuales externamente (en fragmentos) y recupera solo un subconjunto relevante en el momento de la inferencia para que un LLM razone sobre ellos. Sin embargo, esto resulta en un uso ineficiente del cómputo en tiempo de prueba (el LLM razona repetidamente sobre los mismos documentos); además, la recuperación de fragmentos puede inyectar contexto irrelevante que aumenta la generación no sustentada. Proponemos un marco de aprendizaje continuo no paramétrico similar al humano, donde el modelo base permanece fijo y el aprendizaje ocurre integrando cada nueva experiencia en un estado de memoria semántica externa que se acumula y consolida continuamente. Presentamos Panini, que materializa esto representando documentos como Espacios de Trabajo Semánticos Generativos (GWS, por sus siglas en inglés) —una red consciente de entidades y eventos de pares pregunta-respuesta (QA), suficiente para que un LLM reconstruya las situaciones experimentadas y extraiga conocimiento latente mediante cadenas de inferencia basadas en razonamiento sobre la red. Dada una consulta, Panini solo recorre el GSW actualizado continuamente (no los documentos o fragmentos textuales) y recupera las cadenas de inferencia más probables. En seis benchmarks de QA, Panini logra el mayor rendimiento promedio, un 5%-7% superior al de otras líneas base competitivas, mientras utiliza entre 2 y 30 veces menos tokens de contexto-respuesta, admite pipelines completamente de código abierto y reduce las respuestas no sustentadas en consultas curadas sin respuesta. Los resultados muestran que una estructuración eficiente y precisa de las experiencias en el momento de escritura —como la lograda por el marco GSW— produce ganancias tanto de eficiencia como de confiabilidad en el momento de lectura. El código está disponible en https://github.com/roychowdhuryresearch/gsw-memory.
English
Language models are increasingly used to reason over content they were not trained on, such as new documents, evolving knowledge, and user-specific data. A common approach is retrieval-augmented generation (RAG), which stores verbatim documents externally (as chunks) and retrieves only a relevant subset at inference time for an LLM to reason over. However, this results in inefficient usage of test-time compute (LLM repeatedly reasons over the same documents); moreover, chunk retrieval can inject irrelevant context that increases unsupported generation. We propose a human-like non-parametric continual learning framework, where the base model remains fixed, and learning occurs by integrating each new experience into an external semantic memory state that accumulates and consolidates itself continually. We present Panini, which realizes this by representing documents as Generative Semantic Workspaces (GSW) -- an entity- and event-aware network of question-answer (QA) pairs, sufficient for an LLM to reconstruct the experienced situations and mine latent knowledge via reasoning-grounded inference chains on the network. Given a query, Panini only traverses the continually-updated GSW (not the verbatim documents or chunks), and retrieves the most likely inference chains. Across six QA benchmarks, Panini achieves the highest average performance, 5%-7% higher than other competitive baselines, while using 2-30x fewer answer-context tokens, supports fully open-source pipelines, and reduces unsupported answers on curated unanswerable queries. The results show that efficient and accurate structuring of experiences at write time -- as achieved by the GSW framework -- yields both efficiency and reliability gains at read time. Code is available at https://github.com/roychowdhuryresearch/gsw-memory.
PDF41February 19, 2026