ChatPaper.aiChatPaper

Todo está conectado: Un recorrido por la memorización en tiempo de prueba, el sesgo atencional, la retención y la optimización en línea

It's All Connected: A Journey Through Test-Time Memorization, Attentional Bias, Retention, and Online Optimization

April 17, 2025
Autores: Ali Behrouz, Meisam Razaviyayn, Peilin Zhong, Vahab Mirrokni
cs.AI

Resumen

El diseño de arquitecturas base eficientes y efectivas ha estado en el núcleo de los esfuerzos de investigación para mejorar la capacidad de los modelos fundacionales. Inspirados por el fenómeno cognitivo humano del sesgo atencional—la tendencia natural a priorizar ciertos eventos o estímulos—reconceptualizamos las arquitecturas neuronales, incluyendo Transformers, Titans y redes neuronales recurrentes lineales modernas, como módulos de memoria asociativa que aprenden un mapeo de claves y valores utilizando un objetivo interno, denominado sesgo atencional. Sorprendentemente, observamos que la mayoría de los modelos de secuencia existentes aprovechan ya sea (1) la similitud de producto punto, o (2) objetivos de regresión L2 como su sesgo atencional. Yendo más allá de estos objetivos, presentamos un conjunto de configuraciones alternativas de sesgo atencional junto con sus aproximaciones efectivas para estabilizar su procedimiento de entrenamiento. Luego reinterpretamos los mecanismos de olvido en las arquitecturas de aprendizaje profundo modernas como una forma de regularización de retención, proporcionando un nuevo conjunto de puertas de olvido para modelos de secuencia. Basándonos en estas ideas, presentamos Miras, un marco general para diseñar arquitecturas de aprendizaje profundo basadas en cuatro elecciones: (i) arquitectura de memoria asociativa, (ii) objetivo de sesgo atencional, (iii) puerta de retención, y (iv) algoritmo de aprendizaje de memoria. Presentamos tres nuevos modelos de secuencia—Moneta, Yaad y Memora—que superan el poder de las RNNs lineales existentes mientras mantienen un proceso de entrenamiento rápido y paralelizable. Nuestros experimentos muestran que diferentes elecciones de diseño en Miras producen modelos con diversas fortalezas. Por ejemplo, ciertas instancias de Miras logran un rendimiento excepcional en tareas especiales como modelado de lenguaje, razonamiento de sentido común y tareas intensivas en recuperación, superando incluso a Transformers y otros modelos recurrentes lineales modernos.
English
Designing efficient and effective architectural backbones has been in the core of research efforts to enhance the capability of foundation models. Inspired by the human cognitive phenomenon of attentional bias-the natural tendency to prioritize certain events or stimuli-we reconceptualize neural architectures, including Transformers, Titans, and modern linear recurrent neural networks as associative memory modules that learn a mapping of keys and values using an internal objective, referred to as attentional bias. Surprisingly, we observed that most existing sequence models leverage either (1) dot-product similarity, or (2) L2 regression objectives as their attentional bias. Going beyond these objectives, we present a set of alternative attentional bias configurations along with their effective approximations to stabilize their training procedure. We then reinterpret forgetting mechanisms in modern deep learning architectures as a form of retention regularization, providing a novel set of forget gates for sequence models. Building upon these insights, we present Miras, a general framework to design deep learning architectures based on four choices of: (i) associative memory architecture, (ii) attentional bias objective, (iii) retention gate, and (iv) memory learning algorithm. We present three novel sequence models-Moneta, Yaad, and Memora-that go beyond the power of existing linear RNNs while maintaining a fast parallelizable training process. Our experiments show different design choices in Miras yield models with varying strengths. For example, certain instances of Miras achieve exceptional performance in special tasks such as language modeling, commonsense reasoning, and recall intensive tasks, even outperforming Transformers and other modern linear recurrent models.

Summary

AI-Generated Summary

PDF173April 21, 2025