Está Tudo Conectado: Uma Jornada Através da Memorização em Tempo de Teste, Viés de Atenção, Retenção e Otimização Online
It's All Connected: A Journey Through Test-Time Memorization, Attentional Bias, Retention, and Online Optimization
April 17, 2025
Autores: Ali Behrouz, Meisam Razaviyayn, Peilin Zhong, Vahab Mirrokni
cs.AI
Resumo
O projeto de arquiteturas de base eficientes e eficazes tem sido o cerne dos esforços de pesquisa para aprimorar a capacidade dos modelos fundamentais. Inspirados pelo fenômeno cognitivo humano de viés atencional — a tendência natural de priorizar certos eventos ou estímulos —, reconceituamos arquiteturas neurais, incluindo Transformers, Titans e redes neurais recorrentes lineares modernas, como módulos de memória associativa que aprendem um mapeamento de chaves e valores usando um objetivo interno, denominado viés atencional. Surpreendentemente, observamos que a maioria dos modelos de sequência existentes utiliza (1) similaridade de produto escalar ou (2) objetivos de regressão L2 como seu viés atencional. Indo além desses objetivos, apresentamos um conjunto de configurações alternativas de viés atencional, juntamente com suas aproximações eficazes para estabilizar o procedimento de treinamento. Em seguida, reinterpretamos os mecanismos de esquecimento em arquiteturas modernas de aprendizado profundo como uma forma de regularização de retenção, fornecendo um novo conjunto de portas de esquecimento para modelos de sequência. Com base nessas percepções, apresentamos Miras, um framework geral para projetar arquiteturas de aprendizado profundo com base em quatro escolhas: (i) arquitetura de memória associativa, (ii) objetivo de viés atencional, (iii) porta de retenção e (iv) algoritmo de aprendizado de memória. Apresentamos três novos modelos de sequência — Moneta, Yaad e Memora — que vão além do poder das RNNs lineares existentes, mantendo um processo de treinamento rápido e paralelizável. Nossos experimentos mostram que diferentes escolhas de design no Miras resultam em modelos com pontos fortes variados. Por exemplo, certas instâncias do Miras alcançam desempenho excepcional em tarefas específicas, como modelagem de linguagem, raciocínio de senso comum e tarefas intensivas em recuperação, superando até mesmo Transformers e outros modelos recorrentes lineares modernos.
English
Designing efficient and effective architectural backbones has been in the
core of research efforts to enhance the capability of foundation models.
Inspired by the human cognitive phenomenon of attentional bias-the natural
tendency to prioritize certain events or stimuli-we reconceptualize neural
architectures, including Transformers, Titans, and modern linear recurrent
neural networks as associative memory modules that learn a mapping of keys and
values using an internal objective, referred to as attentional bias.
Surprisingly, we observed that most existing sequence models leverage either
(1) dot-product similarity, or (2) L2 regression objectives as their
attentional bias. Going beyond these objectives, we present a set of
alternative attentional bias configurations along with their effective
approximations to stabilize their training procedure. We then reinterpret
forgetting mechanisms in modern deep learning architectures as a form of
retention regularization, providing a novel set of forget gates for sequence
models. Building upon these insights, we present Miras, a general framework to
design deep learning architectures based on four choices of: (i) associative
memory architecture, (ii) attentional bias objective, (iii) retention gate, and
(iv) memory learning algorithm. We present three novel sequence models-Moneta,
Yaad, and Memora-that go beyond the power of existing linear RNNs while
maintaining a fast parallelizable training process. Our experiments show
different design choices in Miras yield models with varying strengths. For
example, certain instances of Miras achieve exceptional performance in special
tasks such as language modeling, commonsense reasoning, and recall intensive
tasks, even outperforming Transformers and other modern linear recurrent
models.Summary
AI-Generated Summary