Locas : Vos modèles sont des initialiseurs principés de mémoires paramétriques à support local

papers.abstract

Dans cet article, nous visons à établir un lien entre l'apprentissage au moment du test et un nouveau type de mémoire paramétrique pouvant être transférée ou fusionnée de manière flexible avec les paramètres du modèle. Nous présentons Locas, une mémoire paramétrique à support local qui partage la conception des blocs de réseaux feed-forward des transformeurs modernes, lui permettant d'être pérennisée de manière flexible dans les paramètres du modèle tout en supportant un apprentissage continu efficace. Nous discutons deux variantes majeures de Locas : l'une avec une conception MLP à deux couches classique, offrant une garantie théorique plus claire ; l'autre partage la même structure GLU-FFN que les LLMs à l'état de l'art, et peut être facilement intégrée aux modèles existants pour un apprentissage continu à la fois efficace en paramètres et en calcul. De manière cruciale, nous montrons qu'une initialisation correcte de ces mémoires latérales de type FFN à faible rang – réalisée de manière princippée en réutilisant les paramètres, les activations et/ou les gradients du modèle – est essentielle pour une convergence rapide, une meilleure généralisation et la prévention de l'oubli catastrophique. Nous validons le mécanisme de mémoire proposé sur les tâches de modélisation du langage sur livres entiers PG-19 et de question-réponse en dialogue à long contexte LoCoMo. Avec seulement 0,02 % de paramètres supplémentaires dans le cas le plus faible, Locas-GLU est capable de stocker les informations du contexte passé tout en maintenant une fenêtre de contexte beaucoup plus réduite. De plus, nous testons également la perte de capacité générale du modèle après avoir mémorisé le livre entier avec Locas, via une évaluation comparative MMLU. Les résultats démontrent la capacité prometteuse de Locas à pérenniser le contexte passé en connaissances paramétriques tout en minimisant l'oubli catastrophique des connaissances internes existantes du modèle.

English

In this paper, we aim to bridge test-time-training with a new type of parametric memory that can be flexibly offloaded from or merged into model parameters. We present Locas, a Locally-Supported parametric memory that shares the design of FFN blocks in modern transformers, allowing it to be flexibly permanentized into the model parameters while supporting efficient continual learning. We discuss two major variants of Locas: one with a conventional two-layer MLP design that has a clearer theoretical guarantee; the other one shares the same GLU-FFN structure with SOTA LLMs, and can be easily attached to existing models for both parameter-efficient and computation-efficient continual learning. Crucially, we show that proper initialization of such low-rank sideway-FFN-style memories -- performed in a principled way by reusing model parameters, activations and/or gradients -- is essential for fast convergence, improved generalization, and catastrophic forgetting prevention. We validate the proposed memory mechanism on the PG-19 whole-book language modeling and LoCoMo long-context dialogue question answering tasks. With only 0.02\% additional parameters in the lowest case, Locas-GLU is capable of storing the information from past context while maintaining a much smaller context window. In addition, we also test the model's general capability loss after memorizing the whole book with Locas, through comparative MMLU evaluation. Results show the promising ability of Locas to permanentize past context into parametric knowledge with minimized catastrophic forgetting of the model's existing internal knowledge.