Вы не полностью используете репрезентативную способность трансформера
You Do Not Fully Utilize Transformer's Representation Capacity
February 13, 2025
Авторы: Gleb Gerasimov, Yaroslav Aksenov, Nikita Balagansky, Viacheslav Sinii, Daniil Gavrilov
cs.AI
Аннотация
В отличие от рекуррентных нейронных сетей (RNN), которые сжимают предыдущие токены в одно скрытое состояние, трансформеры могут напрямую обращать внимание на все предыдущие токены. Однако стандартные трансформеры используют представления только из непосредственно предшествующего слоя. В данной статье мы показываем, что такой выбор архитектуры приводит к коллапсу представлений и снижению производительности. Для решения этой проблемы мы представляем Layer-Integrated Memory (LIMe) — простой, но мощный подход, который сохраняет общий объем памяти модели, расширяя её репрезентационные возможности за счёт доступа к скрытым состояниям из более ранних слоев. Благодаря обширным экспериментам на различных архитектурах и механизмах поиска мы демонстрируем стабильное улучшение производительности на широком спектре задач. Кроме того, наш анализ динамики изученных представлений и исследование глубинных схем показывают, как LIMe интегрирует информацию между слоями, указывая на перспективные направления для будущих исследований.
English
In contrast to RNNs, which compress previous tokens into a single hidden
state, Transformers can attend to all previous tokens directly. However,
standard Transformers only use representations from the immediately preceding
layer. In this paper, we show that this design choice causes representation
collapse and leads to suboptimal performance. To address this issue, we
introduce Layer-Integrated Memory (LIMe), a simple yet powerful approach that
preserves the model's overall memory footprint while expanding its
representational capacity by allowing access to hidden states from earlier
layers. Through extensive experiments across various architectures and
different lookup mechanisms, we demonstrate consistent performance improvements
on a wide range of tasks. Moreover, our analysis of the learned representation
dynamics and our exploration of depthwise circuits reveal how LIMe integrates
information across layers, pointing to promising directions for future
research.Summary
AI-Generated Summary