Панини: Непрерывное обучение в токенном пространстве с помощью структурированной памяти
Panini: Continual Learning in Token Space via Structured Memory
February 16, 2026
Авторы: Shreyas Rajesh, Pavan Holur, Mehmet Yigit Turali, Chenda Duan, Vwani Roychowdhury
cs.AI
Аннотация
Языковые модели все чаще используются для анализа информации, на которой они не обучались, такой как новые документы, эволюционирующие знания и пользовательские данные. Распространенным подходом является генерация с расширением выборки (RAG), при которой дословные документы хранятся внешне (в виде фрагментов), и на этапе вывода извлекается только релевантное подмножество для анализа LLM. Однако это приводит к неэффективному использованию вычислительных ресурсов во время тестирования (LLM многократно анализирует одни и те же документы); более того, извлечение фрагментов может добавлять нерелевантный контекст, что увеличивает количество неподтвержденных генераций. Мы предлагаем похожий на человеческий непараметрический фреймворк непрерывного обучения, в котором базовая модель остается неизменной, а обучение происходит за счет интеграции каждого нового опыта во внешнее состояние семантической памяти, которое постоянно накапливается и консолидируется. Мы представляем Panini, который реализует это, представляя документы в виде генеративных семантических рабочих пространств (GSW) — сети пар "вопрос-ответ" (QA), учитывающей сущности и события, что достаточно для LLM, чтобы восстанавливать пережитые ситуации и извлекать скрытые знания с помощью обоснованных логических цепочек вывода в сети. При получении запроса Panini проходит только по постоянно обновляемому GSW (а не по дословным документам или фрагментам) и извлекает наиболее вероятные цепочки вывода. На шести бенчмарках QA Panini демонстрирует наивысшую среднюю производительность, на 5–7% выше, чем у других конкурентоспособных базовых методов, при этом используя в 2–30 раз меньше токенов контекста ответа, поддерживает полностью открытые конвейеры и сокращает количество неподтвержденных ответов на специально подобранные неотвечаемые запросы. Результаты показывают, что эффективная и точная структуризация опыта на этапе записи — как это реализовано в рамках GSW — обеспечивает выигрыш как в эффективности, так и в надежности на этапе чтения. Код доступен по адресу https://github.com/roychowdhuryresearch/gsw-memory.
English
Language models are increasingly used to reason over content they were not trained on, such as new documents, evolving knowledge, and user-specific data. A common approach is retrieval-augmented generation (RAG), which stores verbatim documents externally (as chunks) and retrieves only a relevant subset at inference time for an LLM to reason over. However, this results in inefficient usage of test-time compute (LLM repeatedly reasons over the same documents); moreover, chunk retrieval can inject irrelevant context that increases unsupported generation. We propose a human-like non-parametric continual learning framework, where the base model remains fixed, and learning occurs by integrating each new experience into an external semantic memory state that accumulates and consolidates itself continually. We present Panini, which realizes this by representing documents as Generative Semantic Workspaces (GSW) -- an entity- and event-aware network of question-answer (QA) pairs, sufficient for an LLM to reconstruct the experienced situations and mine latent knowledge via reasoning-grounded inference chains on the network. Given a query, Panini only traverses the continually-updated GSW (not the verbatim documents or chunks), and retrieves the most likely inference chains. Across six QA benchmarks, Panini achieves the highest average performance, 5%-7% higher than other competitive baselines, while using 2-30x fewer answer-context tokens, supports fully open-source pipelines, and reduces unsupported answers on curated unanswerable queries. The results show that efficient and accurate structuring of experiences at write time -- as achieved by the GSW framework -- yields both efficiency and reliability gains at read time. Code is available at https://github.com/roychowdhuryresearch/gsw-memory.