Всё взаимосвязано: Путешествие через запоминание на этапе тестирования, внимание с предвзятостью, удержание и онлайн-оптимизацию
It's All Connected: A Journey Through Test-Time Memorization, Attentional Bias, Retention, and Online Optimization
April 17, 2025
Авторы: Ali Behrouz, Meisam Razaviyayn, Peilin Zhong, Vahab Mirrokni
cs.AI
Аннотация
Разработка эффективных и производительных архитектурных основ находится в центре исследовательских усилий, направленных на повышение возможностей базовых моделей. Вдохновленные когнитивным феноменом человека — внимательным смещением, естественной склонностью к приоритизации определенных событий или стимулов, — мы переосмысливаем нейронные архитектуры, включая Transformers, Titans и современные линейные рекуррентные нейронные сети, как модули ассоциативной памяти, которые изучают отображение ключей и значений с использованием внутренней цели, называемой внимательным смещением. Удивительно, но мы обнаружили, что большинство существующих моделей последовательностей используют либо (1) сходство на основе скалярного произведения, либо (2) цели регрессии L2 в качестве своего внимательного смещения. Выходя за рамки этих целей, мы предлагаем набор альтернативных конфигураций внимательного смещения вместе с их эффективными аппроксимациями для стабилизации процесса обучения. Затем мы переосмысливаем механизмы забывания в современных архитектурах глубокого обучения как форму регуляризации удержания, предлагая новый набор вентилей забывания для моделей последовательностей. Основываясь на этих идеях, мы представляем Miras — общую структуру для проектирования архитектур глубокого обучения, основанную на четырех выборах: (i) архитектура ассоциативной памяти, (ii) цель внимательного смещения, (iii) вентиль удержания и (iv) алгоритм обучения памяти. Мы представляем три новые модели последовательностей — Moneta, Yaad и Memora, — которые превосходят возможности существующих линейных рекуррентных сетей, сохраняя при этом быстрый параллелизуемый процесс обучения. Наши эксперименты показывают, что различные варианты проектирования в Miras приводят к моделям с разными сильными сторонами. Например, определенные реализации Miras демонстрируют выдающуюся производительность в специализированных задачах, таких как языковое моделирование, рассуждения на основе здравого смысла и задачи, требующие интенсивного запоминания, даже превосходя Transformers и другие современные линейные рекуррентные модели.
English
Designing efficient and effective architectural backbones has been in the
core of research efforts to enhance the capability of foundation models.
Inspired by the human cognitive phenomenon of attentional bias-the natural
tendency to prioritize certain events or stimuli-we reconceptualize neural
architectures, including Transformers, Titans, and modern linear recurrent
neural networks as associative memory modules that learn a mapping of keys and
values using an internal objective, referred to as attentional bias.
Surprisingly, we observed that most existing sequence models leverage either
(1) dot-product similarity, or (2) L2 regression objectives as their
attentional bias. Going beyond these objectives, we present a set of
alternative attentional bias configurations along with their effective
approximations to stabilize their training procedure. We then reinterpret
forgetting mechanisms in modern deep learning architectures as a form of
retention regularization, providing a novel set of forget gates for sequence
models. Building upon these insights, we present Miras, a general framework to
design deep learning architectures based on four choices of: (i) associative
memory architecture, (ii) attentional bias objective, (iii) retention gate, and
(iv) memory learning algorithm. We present three novel sequence models-Moneta,
Yaad, and Memora-that go beyond the power of existing linear RNNs while
maintaining a fast parallelizable training process. Our experiments show
different design choices in Miras yield models with varying strengths. For
example, certain instances of Miras achieve exceptional performance in special
tasks such as language modeling, commonsense reasoning, and recall intensive
tasks, even outperforming Transformers and other modern linear recurrent
models.Summary
AI-Generated Summary