파니니: 구조화된 메모리를 통한 토큰 공간에서의 지속적 학습
Panini: Continual Learning in Token Space via Structured Memory
February 16, 2026
저자: Shreyas Rajesh, Pavan Holur, Mehmet Yigit Turali, Chenda Duan, Vwani Roychowdhury
cs.AI
초록
언어 모델은 새로운 문서, 진화하는 지식, 사용자별 데이터 등 훈련되지 않은 콘텐츠에 대해 추론하는 데 점점 더 많이 사용되고 있습니다. 일반적인 접근 방식은 검색 증강 생성(RAG)으로, 이는 문서를 원문 그대로 외부에 청크 형태로 저장하고 추론 시점에 LLM이 추론할 수 있도록 관련된 하위 집합만 검색합니다. 그러나 이는 테스트 시간 계산 자원을 비효율적으로 사용하며(LLM이 동일한 문서를 반복적으로 추론), 또한 청크 검색은 관련 없는 문맥을 유입시켜 근거 없는 생성의 가능성을 높일 수 있습니다. 우리는 인간과 유사한 비모수적 연속 학습 프레임워크를 제안합니다. 이 프레임워크에서는 기본 모델은 고정된 상태로 유지되고, 각각의 새로운 경험을 지속적으로 축적 및 통합되는 외부 의미 기억 상태에 통합함으로써 학습이 발생합니다. 우리는 이를 구현하는 Panini를 소개합니다. Panini는 문서를 생성적 의미 작업 공간(GSW)으로 표현하는데, GSW는 엔터티 및 이벤트 인식 질문-답변(QA) 쌍의 네트워크로, LLM이 경험한 상황을 재구성하고 네트워크 상의 추론 기반 추론 체인을 통해 잠재 지식을 도출하는 데 충분합니다. 쿼리가 주어지면 Panini는 지속적으로 업데이트되는 GSW만 탐색하고(원문 문서나 청크가 아님) 가장 가능성 높은 추론 체인을 검색합니다. 6개의 QA 벤치마크에서 Panini는 평균 최고 성능을 달성했으며, 다른 경쟁력 있는 베이스라인보다 5%-7% 높은 성능을 보였습니다. 동시에 답변-문맥 토큰 사용량은 2-30배 적고, 완전한 오픈소스 파이프라인을 지원하며, 정제된 답변 불가 쿼리에 대한 근거 없는 답변을 줄였습니다. 이러한 결과는 GSW 프레임워크가 달성한 것처럼, 기록 시점에 경험을 효율적이고 정확하게 구조화하는 것이 읽기 시점에 효율성과 신뢰성 향상을 모두 가져온다는 것을 보여줍니다. 코드는 https://github.com/roychowdhuryresearch/gsw-memory 에서 확인할 수 있습니다.
English
Language models are increasingly used to reason over content they were not trained on, such as new documents, evolving knowledge, and user-specific data. A common approach is retrieval-augmented generation (RAG), which stores verbatim documents externally (as chunks) and retrieves only a relevant subset at inference time for an LLM to reason over. However, this results in inefficient usage of test-time compute (LLM repeatedly reasons over the same documents); moreover, chunk retrieval can inject irrelevant context that increases unsupported generation. We propose a human-like non-parametric continual learning framework, where the base model remains fixed, and learning occurs by integrating each new experience into an external semantic memory state that accumulates and consolidates itself continually. We present Panini, which realizes this by representing documents as Generative Semantic Workspaces (GSW) -- an entity- and event-aware network of question-answer (QA) pairs, sufficient for an LLM to reconstruct the experienced situations and mine latent knowledge via reasoning-grounded inference chains on the network. Given a query, Panini only traverses the continually-updated GSW (not the verbatim documents or chunks), and retrieves the most likely inference chains. Across six QA benchmarks, Panini achieves the highest average performance, 5%-7% higher than other competitive baselines, while using 2-30x fewer answer-context tokens, supports fully open-source pipelines, and reduces unsupported answers on curated unanswerable queries. The results show that efficient and accurate structuring of experiences at write time -- as achieved by the GSW framework -- yields both efficiency and reliability gains at read time. Code is available at https://github.com/roychowdhuryresearch/gsw-memory.