Es ist alles verbunden: Eine Reise durch Testzeit-Gedächtnisbildung, Aufmerksamkeitsverzerrung, Beibehaltung und Online-Optimierung
It's All Connected: A Journey Through Test-Time Memorization, Attentional Bias, Retention, and Online Optimization
April 17, 2025
Autoren: Ali Behrouz, Meisam Razaviyayn, Peilin Zhong, Vahab Mirrokni
cs.AI
Zusammenfassung
Die Entwicklung effizienter und effektiver architektonischer Grundstrukturen stand im Mittelpunkt der Forschungsbemühungen, um die Fähigkeiten von Foundation-Modellen zu verbessern. Inspiriert vom menschlichen kognitiven Phänomen der Aufmerksamkeitsverzerrung – der natürlichen Tendenz, bestimmte Ereignisse oder Reize zu priorisieren – konzipieren wir neuronale Architekturen, einschließlich Transformers, Titans und moderner linearer rekurrenter neuronaler Netze, als assoziative Speichermodule neu, die eine Abbildung von Schlüsseln und Werten mithilfe eines internen Ziels, der sogenannten Aufmerksamkeitsverzerrung, erlernen. Überraschenderweise beobachteten wir, dass die meisten bestehenden Sequenzmodelle entweder (1) die Ähnlichkeit des Skalarprodukts oder (2) L2-Regressionsziele als ihre Aufmerksamkeitsverzerrung nutzen. Über diese Ziele hinaus stellen wir eine Reihe alternativer Konfigurationen der Aufmerksamkeitsverzerrung zusammen mit ihren effektiven Approximationen vor, um deren Trainingsverfahren zu stabilisieren. Anschließend interpretieren wir Vergessensmechanismen in modernen Deep-Learning-Architekturen als eine Form der Behaltensregularisierung und bieten eine neue Reihe von Vergessensgattern für Sequenzmodelle. Aufbauend auf diesen Erkenntnissen präsentieren wir Miras, ein allgemeines Framework zur Gestaltung von Deep-Learning-Architekturen basierend auf vier Wahlmöglichkeiten: (i) assoziative Speicherarchitektur, (ii) Aufmerksamkeitsverzerrungsziel, (iii) Behaltensgatter und (iv) Speicherlernalgorithmus. Wir stellen drei neuartige Sequenzmodelle vor – Moneta, Yaad und Memora –, die die Leistungsfähigkeit bestehender linearer RNNs übertreffen und gleichzeitig einen schnellen, parallelisierbaren Trainingsprozess beibehalten. Unsere Experimente zeigen, dass verschiedene Designentscheidungen in Miras Modelle mit unterschiedlichen Stärken hervorbringen. Beispielsweise erzielen bestimmte Instanzen von Miras außergewöhnliche Leistungen in speziellen Aufgaben wie Sprachmodellierung, Commonsense-Reasoning und erinnerungsintensiven Aufgaben und übertreffen dabei sogar Transformers und andere moderne lineare rekurrente Modelle.
English
Designing efficient and effective architectural backbones has been in the
core of research efforts to enhance the capability of foundation models.
Inspired by the human cognitive phenomenon of attentional bias-the natural
tendency to prioritize certain events or stimuli-we reconceptualize neural
architectures, including Transformers, Titans, and modern linear recurrent
neural networks as associative memory modules that learn a mapping of keys and
values using an internal objective, referred to as attentional bias.
Surprisingly, we observed that most existing sequence models leverage either
(1) dot-product similarity, or (2) L2 regression objectives as their
attentional bias. Going beyond these objectives, we present a set of
alternative attentional bias configurations along with their effective
approximations to stabilize their training procedure. We then reinterpret
forgetting mechanisms in modern deep learning architectures as a form of
retention regularization, providing a novel set of forget gates for sequence
models. Building upon these insights, we present Miras, a general framework to
design deep learning architectures based on four choices of: (i) associative
memory architecture, (ii) attentional bias objective, (iii) retention gate, and
(iv) memory learning algorithm. We present three novel sequence models-Moneta,
Yaad, and Memora-that go beyond the power of existing linear RNNs while
maintaining a fast parallelizable training process. Our experiments show
different design choices in Miras yield models with varying strengths. For
example, certain instances of Miras achieve exceptional performance in special
tasks such as language modeling, commonsense reasoning, and recall intensive
tasks, even outperforming Transformers and other modern linear recurrent
models.Summary
AI-Generated Summary