Mise en cache mémoire : RNNs avec mémoire croissante

Résumé

Les Transformers sont devenus les architectures de référence pour la plupart des avancées récentes en modélisation de séquences, principalement grâce à leur capacité mémoire croissante qui évolue avec la longueur du contexte. Bien que cela soit pertinent pour les tâches de recherche d'information, cette caractéristique entraîne une complexité quadratique, motivant ainsi des études récentes à explorer des alternatives récurrentes sous-quadratiques viables. Malgré des résultats préliminaires prometteurs dans divers domaines, ces architectures récurrentes sous-performent les Transformers sur les tâches intensives en rappel, ce qui est souvent attribué à leur mémoire de taille fixe. Dans cet article, nous présentons le *Memory Caching* (MC), une technique simple mais efficace qui améliore les modèles récurrents en mettant en cache des points de contrôle de leurs états de mémoire (également appelés états cachés). Le Memory Caching permet à la capacité mémoire effective des RNN de croître avec la longueur de la séquence, offrant un compromis flexible qui interpole entre la mémoire fixe (c'est-à-dire une complexité en O(L)) des RNN et la mémoire croissante (c'est-à-dire une complexité en O(L²)) des Transformers. Nous proposons quatre variantes de MC, incluant des mécanismes d'agrégation à porte et de sélection parcimonieuse, et discutons de leurs implications sur les modules de mémoire linéaires et profonds. Nos résultats expérimentaux sur la modélisation du langage et les tâches de compréhension de contexte long montrent que MC améliore les performances des modèles récurrents, confirmant son efficacité. Les résultats sur les tâches de rappel en contexte indiquent que si les Transformers obtiennent la meilleure précision, nos variantes de MC affichent des performances compétitives, réduisent l'écart avec les Transformers et surpassent les modèles récurrents de l'état de l'art.

English

Transformers have been established as the de-facto backbones for most recent advances in sequence modeling, mainly due to their growing memory capacity that scales with the context length. While plausible for retrieval tasks, it causes quadratic complexity and so has motivated recent studies to explore viable subquadratic recurrent alternatives. Despite showing promising preliminary results in diverse domains, such recurrent architectures underperform Transformers in recall-intensive tasks, often attributed to their fixed-size memory. In this paper, we introduce Memory Caching (MC), a simple yet effective technique that enhances recurrent models by caching checkpoints of their memory states (a.k.a. hidden states). Memory Caching allows the effective memory capacity of RNNs to grow with sequence length, offering a flexible trade-off that interpolates between the fixed memory (i.e., O(L) complexity) of RNNs and the growing memory (i.e., O(L^2) complexity) of Transformers. We propose four variants of MC, including gated aggregation and sparse selective mechanisms, and discuss their implications on both linear and deep memory modules. Our experimental results on language modeling, and long-context understanding tasks show that MC enhances the performance of recurrent models, supporting its effectiveness. The results of in-context recall tasks indicate that while Transformers achieve the best accuracy, our MC variants show competitive performance, close the gap with Transformers, and performs better than state-of-the-art recurrent models.

Mise en cache mémoire : RNNs avec mémoire croissante

Memory Caching: RNNs with Growing Memory

Résumé

Support