Está Tudo Conectado: Uma Jornada Através da Memorização em Tempo de Teste, Viés de Atenção, Retenção e Otimização Online

Resumo

O projeto de arquiteturas de base eficientes e eficazes tem sido o cerne dos esforços de pesquisa para aprimorar a capacidade dos modelos fundamentais. Inspirados pelo fenômeno cognitivo humano de viés atencional — a tendência natural de priorizar certos eventos ou estímulos —, reconceituamos arquiteturas neurais, incluindo Transformers, Titans e redes neurais recorrentes lineares modernas, como módulos de memória associativa que aprendem um mapeamento de chaves e valores usando um objetivo interno, denominado viés atencional. Surpreendentemente, observamos que a maioria dos modelos de sequência existentes utiliza (1) similaridade de produto escalar ou (2) objetivos de regressão L2 como seu viés atencional. Indo além desses objetivos, apresentamos um conjunto de configurações alternativas de viés atencional, juntamente com suas aproximações eficazes para estabilizar o procedimento de treinamento. Em seguida, reinterpretamos os mecanismos de esquecimento em arquiteturas modernas de aprendizado profundo como uma forma de regularização de retenção, fornecendo um novo conjunto de portas de esquecimento para modelos de sequência. Com base nessas percepções, apresentamos Miras, um framework geral para projetar arquiteturas de aprendizado profundo com base em quatro escolhas: (i) arquitetura de memória associativa, (ii) objetivo de viés atencional, (iii) porta de retenção e (iv) algoritmo de aprendizado de memória. Apresentamos três novos modelos de sequência — Moneta, Yaad e Memora — que vão além do poder das RNNs lineares existentes, mantendo um processo de treinamento rápido e paralelizável. Nossos experimentos mostram que diferentes escolhas de design no Miras resultam em modelos com pontos fortes variados. Por exemplo, certas instâncias do Miras alcançam desempenho excepcional em tarefas específicas, como modelagem de linguagem, raciocínio de senso comum e tarefas intensivas em recuperação, superando até mesmo Transformers e outros modelos recorrentes lineares modernos.

English

Designing efficient and effective architectural backbones has been in the core of research efforts to enhance the capability of foundation models. Inspired by the human cognitive phenomenon of attentional bias-the natural tendency to prioritize certain events or stimuli-we reconceptualize neural architectures, including Transformers, Titans, and modern linear recurrent neural networks as associative memory modules that learn a mapping of keys and values using an internal objective, referred to as attentional bias. Surprisingly, we observed that most existing sequence models leverage either (1) dot-product similarity, or (2) L2 regression objectives as their attentional bias. Going beyond these objectives, we present a set of alternative attentional bias configurations along with their effective approximations to stabilize their training procedure. We then reinterpret forgetting mechanisms in modern deep learning architectures as a form of retention regularization, providing a novel set of forget gates for sequence models. Building upon these insights, we present Miras, a general framework to design deep learning architectures based on four choices of: (i) associative memory architecture, (ii) attentional bias objective, (iii) retention gate, and (iv) memory learning algorithm. We present three novel sequence models-Moneta, Yaad, and Memora-that go beyond the power of existing linear RNNs while maintaining a fast parallelizable training process. Our experiments show different design choices in Miras yield models with varying strengths. For example, certain instances of Miras achieve exceptional performance in special tasks such as language modeling, commonsense reasoning, and recall intensive tasks, even outperforming Transformers and other modern linear recurrent models.

Está Tudo Conectado: Uma Jornada Através da Memorização em Tempo de Teste, Viés de Atenção, Retenção e Otimização Online

It's All Connected: A Journey Through Test-Time Memorization, Attentional Bias, Retention, and Online Optimization

Resumo

Summary

Support

Support