Você Não Utiliza Totalmente a Capacidade de Representação do Transformer
You Do Not Fully Utilize Transformer's Representation Capacity
February 13, 2025
Autores: Gleb Gerasimov, Yaroslav Aksenov, Nikita Balagansky, Viacheslav Sinii, Daniil Gavrilov
cs.AI
Resumo
Em contraste com as RNNs, que comprimem os tokens anteriores em um único estado oculto, os Transformers podem atender diretamente a todos os tokens anteriores. No entanto, os Transformers padrão utilizam apenas as representações da camada imediatamente anterior. Neste artigo, mostramos que essa escolha de projeto causa colapso de representação e leva a um desempenho subótimo. Para abordar esse problema, introduzimos a Memória Integrada por Camadas (LIMe, na sigla em inglês), uma abordagem simples, porém poderosa, que preserva a pegada de memória geral do modelo enquanto expande sua capacidade representacional, permitindo o acesso a estados ocultos de camadas anteriores. Por meio de extensos experimentos em várias arquiteturas e diferentes mecanismos de consulta, demonstramos melhorias consistentes de desempenho em uma ampla gama de tarefas. Além disso, nossa análise da dinâmica das representações aprendidas e nossa exploração de circuitos em profundidade revelam como o LIMe integra informações entre as camadas, apontando para direções promissoras para pesquisas futuras.
English
In contrast to RNNs, which compress previous tokens into a single hidden
state, Transformers can attend to all previous tokens directly. However,
standard Transformers only use representations from the immediately preceding
layer. In this paper, we show that this design choice causes representation
collapse and leads to suboptimal performance. To address this issue, we
introduce Layer-Integrated Memory (LIMe), a simple yet powerful approach that
preserves the model's overall memory footprint while expanding its
representational capacity by allowing access to hidden states from earlier
layers. Through extensive experiments across various architectures and
different lookup mechanisms, we demonstrate consistent performance improvements
on a wide range of tasks. Moreover, our analysis of the learned representation
dynamics and our exploration of depthwise circuits reveal how LIMe integrates
information across layers, pointing to promising directions for future
research.Summary
AI-Generated Summary