È Tutto Connesso: Un Viaggio Attraverso la Memorizzazione al Momento del Test, il Bias Attenzionale, la Ritenzione e l'Ottimizzazione Online
It's All Connected: A Journey Through Test-Time Memorization, Attentional Bias, Retention, and Online Optimization
April 17, 2025
Autori: Ali Behrouz, Meisam Razaviyayn, Peilin Zhong, Vahab Mirrokni
cs.AI
Abstract
La progettazione di architetture di base efficienti ed efficaci è stata al centro degli sforzi di ricerca per migliorare le capacità dei modelli di fondazione. Ispirati dal fenomeno cognitivo umano del bias attentivo – la naturale tendenza a dare priorità a determinati eventi o stimoli – abbiamo riconcettualizzato le architetture neurali, inclusi i Transformers, i Titans e le moderne reti neurali ricorrenti lineari, come moduli di memoria associativa che apprendono una mappatura di chiavi e valori utilizzando un obiettivo interno, denominato bias attentivo. Sorprendentemente, abbiamo osservato che la maggior parte dei modelli di sequenza esistenti sfruttano o (1) la similarità del prodotto scalare, o (2) obiettivi di regressione L2 come loro bias attentivo. Andando oltre questi obiettivi, presentiamo un insieme di configurazioni alternative di bias attentivo insieme alle loro approssimazioni efficaci per stabilizzare il loro processo di addestramento. Successivamente, reinterpretiamo i meccanismi di dimenticanza nelle moderne architetture di deep learning come una forma di regolarizzazione della ritenzione, fornendo un nuovo insieme di gate di dimenticanza per i modelli di sequenza. Basandoci su queste intuizioni, presentiamo Miras, un framework generale per progettare architetture di deep learning basato su quattro scelte: (i) architettura di memoria associativa, (ii) obiettivo di bias attentivo, (iii) gate di ritenzione e (iv) algoritmo di apprendimento della memoria. Presentiamo tre nuovi modelli di sequenza – Moneta, Yaad e Memora – che superano la potenza delle attuali RNN lineari mantenendo un processo di addestramento parallelo e veloce. I nostri esperimenti mostrano che diverse scelte progettuali in Miras producono modelli con punti di forza variabili. Ad esempio, alcune istanze di Miras raggiungono prestazioni eccezionali in compiti speciali come la modellazione del linguaggio, il ragionamento di senso comune e i compiti intensivi di richiamo, superando persino i Transformers e altri moderni modelli ricorrenti lineari.
English
Designing efficient and effective architectural backbones has been in the
core of research efforts to enhance the capability of foundation models.
Inspired by the human cognitive phenomenon of attentional bias-the natural
tendency to prioritize certain events or stimuli-we reconceptualize neural
architectures, including Transformers, Titans, and modern linear recurrent
neural networks as associative memory modules that learn a mapping of keys and
values using an internal objective, referred to as attentional bias.
Surprisingly, we observed that most existing sequence models leverage either
(1) dot-product similarity, or (2) L2 regression objectives as their
attentional bias. Going beyond these objectives, we present a set of
alternative attentional bias configurations along with their effective
approximations to stabilize their training procedure. We then reinterpret
forgetting mechanisms in modern deep learning architectures as a form of
retention regularization, providing a novel set of forget gates for sequence
models. Building upon these insights, we present Miras, a general framework to
design deep learning architectures based on four choices of: (i) associative
memory architecture, (ii) attentional bias objective, (iii) retention gate, and
(iv) memory learning algorithm. We present three novel sequence models-Moneta,
Yaad, and Memora-that go beyond the power of existing linear RNNs while
maintaining a fast parallelizable training process. Our experiments show
different design choices in Miras yield models with varying strengths. For
example, certain instances of Miras achieve exceptional performance in special
tasks such as language modeling, commonsense reasoning, and recall intensive
tasks, even outperforming Transformers and other modern linear recurrent
models.Summary
AI-Generated Summary