Desconstruindo a Atenção: Investigando Princípios de Design para Modelagem de Linguagem Eficaz
Deconstructing Attention: Investigating Design Principles for Effective Language Modeling
October 13, 2025
Autores: Huiyin Xue, Nafise Sadat Moosavi, Nikolaos Aletras
cs.AI
Resumo
O sucesso dos modelos de linguagem baseados em Transformers é amplamente atribuído ao seu mecanismo de atenção por produto escalar, que entrelaça um conjunto de princípios de design fundamentais: a mistura de informações entre posições (permitindo interações multi-token), ativações dependentes da sequência (onde os pesos de atenção se adaptam a cada entrada), uma forma matemática específica (similaridades por produto escalar mais ponderação softmax) e o acoplamento de consultas e chaves a estados ocultos em evolução (ancorando a atenção na camada atual). No entanto, a necessidade de cada um desses princípios permanece amplamente não testada. Neste trabalho, desconstruímos sistematicamente a atenção projetando variantes controladas que relaxam seletivamente esses princípios, aplicados tanto uniformemente em todas as camadas quanto em arquiteturas híbridas onde apenas algumas camadas mantêm a atenção padrão. Nossa análise empírica revela que os mecanismos para misturar tokens são indispensáveis, pois sua ausência faz com que os modelos colapsem para um comportamento quase aleatório, enquanto a forma matemática exata e a dependência da sequência podem ser substancialmente relaxadas, especialmente quando preservadas em apenas um subconjunto de camadas. Surpreendentemente, até mesmo variantes que falham isoladamente podem alcançar desempenho robusto quando intercaladas com a atenção padrão, destacando um efeito cooperativo. Essas descobertas aprofundam nossa compreensão do que realmente sustenta a eficácia da atenção e abrem novos caminhos para simplificar modelos de linguagem sem sacrificar o desempenho.
English
The success of Transformer language models is widely credited to their
dot-product attention mechanism, which interweaves a set of key design
principles: mixing information across positions (enabling multi-token
interactions), sequence-dependent activations (where attention weights adapt to
each input), a specific mathematical form (dot-product similarities plus
softmax weighting), and coupling of queries and keys to evolving hidden states
(grounding attention in the current layer). However, the necessity of each of
these principles remains largely untested. In this work, we systematically
deconstruct attention by designing controlled variants that selectively relax
these principles, applied both uniformly across all layers and in hybrid
architectures where only some layers retain standard attention. Our empirical
analysis reveals that mechanisms for mixing tokens are indispensable, as their
absence collapses models to near-random behavior, while the exact mathematical
form and sequence dependency can be substantially relaxed, especially when
preserved in just a subset of layers. Surprisingly, even variants that fail in
isolation can achieve robust performance when interleaved with standard
attention, highlighting a cooperative effect. These findings deepen our
understanding of what truly underpins attention's effectiveness and open new
avenues for simplifying language models without sacrificing performance.