Panini: Aprendizado Contínuo no Espaço de Tokens por meio de Memória Estruturada
Panini: Continual Learning in Token Space via Structured Memory
February 16, 2026
Autores: Shreyas Rajesh, Pavan Holur, Mehmet Yigit Turali, Chenda Duan, Vwani Roychowdhury
cs.AI
Resumo
Os modelos de linguagem são cada vez mais utilizados para raciocinar sobre conteúdos nos quais não foram treinados, como novos documentos, conhecimentos em evolução e dados específicos do utilizador. Uma abordagem comum é a geração aumentada por recuperação (RAG), que armazena documentos textuais externamente (em fragmentos) e recupera apenas um subconjunto relevante no momento da inferência para um LLM raciocinar. No entanto, isto resulta num uso ineficiente da computação em tempo de teste (o LLM raciocina repetidamente sobre os mesmos documentos); além disso, a recuperação de fragmentos pode introduzir contexto irrelevante que aumenta a geração não suportada. Propomos uma estrutura de aprendizagem contínua não paramétrica, semelhante à humana, onde o modelo base permanece fixo e a aprendizagem ocorre através da integração de cada nova experiência num estado de memória semântica externa que se acumula e consolida continuamente. Apresentamos o Panini, que concretiza isto representando documentos como Espaços de Trabalho Semânticos Generativos (GSW) – uma rede consciente de entidades e eventos de pares pergunta-resposta (QA), suficiente para um LLM reconstruir as situações experienciadas e extrair conhecimento latente através de cadeias de inferência fundamentadas no raciocínio sobre a rede. Dada uma consulta, o Panini percorre apenas o GSW continuamente atualizado (não os documentos ou fragmentos textuais) e recupera as cadeias de inferência mais prováveis. Em seis benchmarks de QA, o Panini alcança o maior desempenho médio, 5%-7% superior a outras linhas de base competitivas, enquanto utiliza 2 a 30 vezes menos tokens de contexto-resposta, suporta pipelines totalmente de código aberto e reduz respostas não suportadas em consultas não respondíveis curadas. Os resultados mostram que uma estruturação eficiente e precisa das experiências no momento de escrita – como alcançado pela estrutura GSW – produz ganhos de eficiência e confiabilidade no momento de leitura. O código está disponível em https://github.com/roychowdhuryresearch/gsw-memory.
English
Language models are increasingly used to reason over content they were not trained on, such as new documents, evolving knowledge, and user-specific data. A common approach is retrieval-augmented generation (RAG), which stores verbatim documents externally (as chunks) and retrieves only a relevant subset at inference time for an LLM to reason over. However, this results in inefficient usage of test-time compute (LLM repeatedly reasons over the same documents); moreover, chunk retrieval can inject irrelevant context that increases unsupported generation. We propose a human-like non-parametric continual learning framework, where the base model remains fixed, and learning occurs by integrating each new experience into an external semantic memory state that accumulates and consolidates itself continually. We present Panini, which realizes this by representing documents as Generative Semantic Workspaces (GSW) -- an entity- and event-aware network of question-answer (QA) pairs, sufficient for an LLM to reconstruct the experienced situations and mine latent knowledge via reasoning-grounded inference chains on the network. Given a query, Panini only traverses the continually-updated GSW (not the verbatim documents or chunks), and retrieves the most likely inference chains. Across six QA benchmarks, Panini achieves the highest average performance, 5%-7% higher than other competitive baselines, while using 2-30x fewer answer-context tokens, supports fully open-source pipelines, and reduces unsupported answers on curated unanswerable queries. The results show that efficient and accurate structuring of experiences at write time -- as achieved by the GSW framework -- yields both efficiency and reliability gains at read time. Code is available at https://github.com/roychowdhuryresearch/gsw-memory.