로카스: 모델은 지역적으로 지원되는 매개변수적 메모리의 원칙적 초기화자입니다
Locas: Your Models are Principled Initializers of Locally-Supported Parametric Memories
February 4, 2026
저자: Sidi Lu, Zhenwen Liang, Dongyang Ma, Yan Wang, Haitao Mi, Dong Yu
cs.AI
초록
본 논문에서는 테스트 타임 트레이닝을 현대적 트랜스포머의 FFN 블록 설계를 공유하는 로컬 지원 파라메트릭 메모리인 Locas로 연결하여, 효율적인 지속 학습을 지원하면서도 모델 파라미터에 유연하게 영구화 또는 병합될 수 있는 새로운 유형의 파라메트릭 메모리를 제안합니다. Locas의 두 가지 주요 변형을 소개합니다: 하나는 이론적 보장이 더 명확한 기존의 2층 MLP 설계를 따르며, 다른 하나는 SOTA LLM과 동일한 GLU-FFN 구조를 공유하여 기존 모델에 쉽게 부착되어 파라미터 효율적이고 계산 효율적인 지속 학습을 가능하게 합니다. 중요한 것은, 모델 파라미터, 활성화, 및/또는 그래디언트를 재사용하는 원칙적인 방식으로 수행되는 이러한 저차원 측면 FFN 스타일 메모리의 적절한 초기화가 빠른 수렴, 개선된 일반화, 그리고 파괴적 망각 방지에 필수적임을 보여줍니다. 제안된 메모리 메커니즘을 PG-19 전체 책 언어 모델링 및 LoCoMo 장문 대화 질의응답 과제에서 검증합니다. 가장 낮은 경우 단 0.02%의 추가 파라미터만으로 Locas-GLU는 훨씬 작은 컨텍스트 윈도우를 유지하면서 과거 컨텍스트의 정보를 저장할 수 있습니다. 또한, 비교 MMLU 평가를 통해 Locas로 전체 책을 기억한 후 모델의 일반적 능력 손실을 테스트합니다. 결과는 Locas가 모델의 기존 내부 지식에 대한 파괴적 망각을 최소화하면서 과거 컨텍스트를 파라메트릭 지식으로 영구화하는 유망한 능력을 보여줍니다.
English
In this paper, we aim to bridge test-time-training with a new type of parametric memory that can be flexibly offloaded from or merged into model parameters. We present Locas, a Locally-Supported parametric memory that shares the design of FFN blocks in modern transformers, allowing it to be flexibly permanentized into the model parameters while supporting efficient continual learning. We discuss two major variants of Locas: one with a conventional two-layer MLP design that has a clearer theoretical guarantee; the other one shares the same GLU-FFN structure with SOTA LLMs, and can be easily attached to existing models for both parameter-efficient and computation-efficient continual learning. Crucially, we show that proper initialization of such low-rank sideway-FFN-style memories -- performed in a principled way by reusing model parameters, activations and/or gradients -- is essential for fast convergence, improved generalization, and catastrophic forgetting prevention. We validate the proposed memory mechanism on the PG-19 whole-book language modeling and LoCoMo long-context dialogue question answering tasks. With only 0.02\% additional parameters in the lowest case, Locas-GLU is capable of storing the information from past context while maintaining a much smaller context window. In addition, we also test the model's general capability loss after memorizing the whole book with Locas, through comparative MMLU evaluation. Results show the promising ability of Locas to permanentize past context into parametric knowledge with minimized catastrophic forgetting of the model's existing internal knowledge.