Locas: Ihre Modelle sind prinzipielle Initialisierer lokal unterstützter parametrischer Speicher

papers.abstract

In dieser Arbeit streben wir an, Test-Time-Training mit einer neuen Art von parametrischem Speicher zu verbinden, der flexibel von den Modellparametern entkoppelt oder in diese integriert werden kann. Wir stellen Locas vor, einen lokal unterstützten parametrischen Speicher, der das Design der FFN-Blöcke moderner Transformer teilt. Dies ermöglicht es, ihn flexibel dauerhaft in die Modellparameter zu überführen und gleichzeitig effizientes kontinuierliches Lernen zu unterstützen. Wir diskutieren zwei Hauptvarianten von Locas: eine mit einem konventionellen zweischichtigen MLP-Design, das eine klarere theoretische Garantie bietet; die andere teilt die gleiche GLU-FFN-Struktur wie State-of-the-Art LLMs und kann einfach an bestehende Modelle angehängt werden, um sowohl parameter- als auch recheneffizientes kontinuierliches Lernen zu ermöglichen. Entscheidend ist, dass wir zeigen, dass eine geeignete Initialisierung solcher speicherahnenden Seitwärts-FFN-Strukturen mit niedrigem Rang – die auf prinzipielle Weise durch Wiederverwendung von Modellparametern, Aktivierungen und/oder Gradienten durchgeführt wird – essentiell für schnelle Konvergenz, verbesserte Generalisierung und die Verhinderung von katastrophalem Vergessen ist. Wir validieren den vorgeschlagenen Speichermechanismus an den Aufgaben Ganzbuch-Sprachmodellierung mit PG-19 und dialogbasiertes Frage-Antworten im Langzeitkontext mit LoCoMo. Mit nur 0,02 % zusätzlichen Parametern im günstigsten Fall ist Locas-GLU in der Lage, Informationen aus vergangenem Kontext zu speichern, während ein deutlich kleineres Kontextfenster beibehalten wird. Zusätzlich testen wir den allgemeinen Fähigkeitsverlust des Modells nach dem Memorieren des gesamten Buches mit Locas durch eine vergleichende MMLU-Evaluation. Die Ergebnisse zeigen die vielversprechende Fähigkeit von Locas, vergangenen Kontext in parametrisches Wissen zu überführen und dabei das katastrophale Vergessen des bestehenden internen Wissens des Modells zu minimieren.

English

In this paper, we aim to bridge test-time-training with a new type of parametric memory that can be flexibly offloaded from or merged into model parameters. We present Locas, a Locally-Supported parametric memory that shares the design of FFN blocks in modern transformers, allowing it to be flexibly permanentized into the model parameters while supporting efficient continual learning. We discuss two major variants of Locas: one with a conventional two-layer MLP design that has a clearer theoretical guarantee; the other one shares the same GLU-FFN structure with SOTA LLMs, and can be easily attached to existing models for both parameter-efficient and computation-efficient continual learning. Crucially, we show that proper initialization of such low-rank sideway-FFN-style memories -- performed in a principled way by reusing model parameters, activations and/or gradients -- is essential for fast convergence, improved generalization, and catastrophic forgetting prevention. We validate the proposed memory mechanism on the PG-19 whole-book language modeling and LoCoMo long-context dialogue question answering tasks. With only 0.02\% additional parameters in the lowest case, Locas-GLU is capable of storing the information from past context while maintaining a much smaller context window. In addition, we also test the model's general capability loss after memorizing the whole book with Locas, through comparative MMLU evaluation. Results show the promising ability of Locas to permanentize past context into parametric knowledge with minimized catastrophic forgetting of the model's existing internal knowledge.