Tout est lié : Un voyage à travers la mémorisation au moment du test, les biais attentionnels, la rétention et l'optimisation en ligne
It's All Connected: A Journey Through Test-Time Memorization, Attentional Bias, Retention, and Online Optimization
April 17, 2025
Auteurs: Ali Behrouz, Meisam Razaviyayn, Peilin Zhong, Vahab Mirrokni
cs.AI
Résumé
La conception d'architectures de base efficaces et performantes a été au cœur des efforts de recherche visant à améliorer les capacités des modèles de fondation. Inspirés par le phénomène cognitif humain du biais attentionnel - la tendance naturelle à privilégier certains événements ou stimuli - nous reconceptualisons les architectures neuronales, y compris les Transformers, les Titans et les réseaux de neurones récurrents linéaires modernes, comme des modules de mémoire associative qui apprennent une cartographie de clés et de valeurs en utilisant un objectif interne, appelé biais attentionnel. Étonnamment, nous avons observé que la plupart des modèles de séquence existants exploitent soit (1) la similarité par produit scalaire, soit (2) des objectifs de régression L2 comme leur biais attentionnel. Allant au-delà de ces objectifs, nous présentons un ensemble de configurations alternatives de biais attentionnel ainsi que leurs approximations efficaces pour stabiliser leur procédure d'entraînement. Nous réinterprétons ensuite les mécanismes d'oubli dans les architectures modernes d'apprentissage profond comme une forme de régularisation de rétention, fournissant un nouvel ensemble de portes d'oubli pour les modèles de séquence. Sur la base de ces insights, nous présentons Miras, un cadre général pour concevoir des architectures d'apprentissage profond basées sur quatre choix : (i) l'architecture de mémoire associative, (ii) l'objectif de biais attentionnel, (iii) la porte de rétention, et (iv) l'algorithme d'apprentissage de la mémoire. Nous présentons trois nouveaux modèles de séquence - Moneta, Yaad et Memora - qui dépassent la puissance des réseaux de neurones récurrents linéaires existants tout en maintenant un processus d'entraînement parallélisable rapide. Nos expériences montrent que différents choix de conception dans Miras produisent des modèles avec des forces variées. Par exemple, certaines instances de Miras atteignent des performances exceptionnelles dans des tâches spécifiques telles que la modélisation du langage, le raisonnement de bon sens et les tâches intensives en rappel, surpassant même les Transformers et d'autres modèles récurrents linéaires modernes.
English
Designing efficient and effective architectural backbones has been in the
core of research efforts to enhance the capability of foundation models.
Inspired by the human cognitive phenomenon of attentional bias-the natural
tendency to prioritize certain events or stimuli-we reconceptualize neural
architectures, including Transformers, Titans, and modern linear recurrent
neural networks as associative memory modules that learn a mapping of keys and
values using an internal objective, referred to as attentional bias.
Surprisingly, we observed that most existing sequence models leverage either
(1) dot-product similarity, or (2) L2 regression objectives as their
attentional bias. Going beyond these objectives, we present a set of
alternative attentional bias configurations along with their effective
approximations to stabilize their training procedure. We then reinterpret
forgetting mechanisms in modern deep learning architectures as a form of
retention regularization, providing a novel set of forget gates for sequence
models. Building upon these insights, we present Miras, a general framework to
design deep learning architectures based on four choices of: (i) associative
memory architecture, (ii) attentional bias objective, (iii) retention gate, and
(iv) memory learning algorithm. We present three novel sequence models-Moneta,
Yaad, and Memora-that go beyond the power of existing linear RNNs while
maintaining a fast parallelizable training process. Our experiments show
different design choices in Miras yield models with varying strengths. For
example, certain instances of Miras achieve exceptional performance in special
tasks such as language modeling, commonsense reasoning, and recall intensive
tasks, even outperforming Transformers and other modern linear recurrent
models.Summary
AI-Generated Summary