Het is Allemaal Verbonden: Een Reis door Test-Tijd Memorization, Attentional Bias, Retentie en Online Optimalisatie
It's All Connected: A Journey Through Test-Time Memorization, Attentional Bias, Retention, and Online Optimization
April 17, 2025
Auteurs: Ali Behrouz, Meisam Razaviyayn, Peilin Zhong, Vahab Mirrokni
cs.AI
Samenvatting
Het ontwerpen van efficiënte en effectieve architectonische backbones staat centraal in onderzoeksinspanningen om de capaciteit van foundation-modellen te verbeteren. Geïnspireerd door het menselijke cognitieve fenomeen van aandachtelijke bias—de natuurlijke neiging om bepaalde gebeurtenissen of stimuli te prioriteren—herinterpreteren we neurale architecturen, waaronder Transformers, Titans en moderne lineaire recurrent neural networks, als associatieve geheugenmodules die een mapping van sleutels en waarden leren met behulp van een intern doel, aangeduid als aandachtelijke bias. Verrassend genoeg hebben we waargenomen dat de meeste bestaande sequentiemodellen ofwel (1) dot-product similariteit, ofwel (2) L2-regressiedoelen gebruiken als hun aandachtelijke bias. Voorbij deze doelen presenteren we een reeks alternatieve aandachtelijke bias-configuraties, samen met hun effectieve benaderingen om hun trainingsprocedure te stabiliseren. Vervolgens herinterpreteren we vergetelheidsmechanismen in moderne deep learning-architecturen als een vorm van retentieregularisatie, waarbij we een nieuwe set vergeetpoorten voor sequentiemodellen introduceren. Op basis van deze inzichten presenteren we Miras, een algemeen framework voor het ontwerpen van deep learning-architecturen gebaseerd op vier keuzes: (i) associatieve geheugenarchitectuur, (ii) aandachtelijk bias-doel, (iii) retentiepoort, en (iv) geheugenleeralgoritme. We presenteren drie nieuwe sequentiemodellen—Moneta, Yaad en Memora—die verder gaan dan de kracht van bestaande lineaire RNN's, terwijl ze een snel paralleliseerbaar trainingsproces behouden. Onze experimenten laten zien dat verschillende ontwerpkeuzes in Miras modellen met uiteenlopende sterktes opleveren. Zo behalen bepaalde instanties van Miras uitzonderlijke prestaties in specifieke taken zoals taalmodellering, gezond verstand redeneren en recall-intensieve taken, waarbij ze zelfs Transformers en andere moderne lineaire recurrent modellen overtreffen.
English
Designing efficient and effective architectural backbones has been in the
core of research efforts to enhance the capability of foundation models.
Inspired by the human cognitive phenomenon of attentional bias-the natural
tendency to prioritize certain events or stimuli-we reconceptualize neural
architectures, including Transformers, Titans, and modern linear recurrent
neural networks as associative memory modules that learn a mapping of keys and
values using an internal objective, referred to as attentional bias.
Surprisingly, we observed that most existing sequence models leverage either
(1) dot-product similarity, or (2) L2 regression objectives as their
attentional bias. Going beyond these objectives, we present a set of
alternative attentional bias configurations along with their effective
approximations to stabilize their training procedure. We then reinterpret
forgetting mechanisms in modern deep learning architectures as a form of
retention regularization, providing a novel set of forget gates for sequence
models. Building upon these insights, we present Miras, a general framework to
design deep learning architectures based on four choices of: (i) associative
memory architecture, (ii) attentional bias objective, (iii) retention gate, and
(iv) memory learning algorithm. We present three novel sequence models-Moneta,
Yaad, and Memora-that go beyond the power of existing linear RNNs while
maintaining a fast parallelizable training process. Our experiments show
different design choices in Miras yield models with varying strengths. For
example, certain instances of Miras achieve exceptional performance in special
tasks such as language modeling, commonsense reasoning, and recall intensive
tasks, even outperforming Transformers and other modern linear recurrent
models.Summary
AI-Generated Summary