Repensando o Papel da Atenção Eficiente em Arquiteturas Híbridas

Resumo

Modelos de linguagem modernos adotam cada vez mais arquiteturas híbridas que combinam atenção completa com módulos de atenção eficientes, como atenção de janela deslizante (SWA) e mixers de sequência recorrentes. No entanto, como esses módulos eficientes moldam as capacidades do modelo ainda é pouco compreendido. Para abordar essa lacuna, realizamos uma análise sistemática em arquiteturas híbridas sob três perspectivas: comportamento de escalonamento, análise de mecanismo e design de arquitetura. Primeiro, sob uma perspectiva de escalonamento, descobrimos que o design de atenção eficiente afeta principalmente a rapidez com que a capacidade de contexto longo emerge, enquanto diferentes híbridos eventualmente convergem para desempenho comparável em contexto longo sob treinamento suficiente. Segundo, mecanicamente, mostramos que a recuperação de longo alcance é principalmente realizada pela atenção completa, enquanto a atenção eficiente molda sua trajetória de otimização. Isso explica um fenômeno contra-intuitivo que chamamos de Preguiça de Janela Grande: janelas SWA maiores podem atrasar a formação de cabeças de recuperação nas camadas de atenção completa. Terceiro, guiados por esse mecanismo, mostramos que aplicar NoPE apenas às camadas de atenção completa de um híbrido SWA de janela pequena melhora substancialmente o desempenho em contexto longo, com impacto desprezível no desempenho em contexto curto.

English

Modern language models increasingly adopt hybrid architectures that combine full attention with efficient attention modules, such as sliding-window attention (SWA) and recurrent sequence mixers. However, how these efficient modules shape model capabilities remains poorly understood. To address this gap, we conduct a systematic analysis across hybrid architectures from three perspectives: scaling behavior, mechanism analysis, and architecture design. First, from a scaling perspective, we find that efficient-attention design primarily affects how fast long-context capability emerges, while different hybrids eventually converge to comparable long-context performance under sufficient training. Second, mechanistically, we show that long-range retrieval is mainly carried by full attention, whereas efficient attention shapes its optimization trajectory. This explains a counter-intuitive phenomenon we call Large-Window Laziness: larger SWA windows can delay the formation of retrieval heads in full-attention layers. Third, guided by this mechanism, we show that applying NoPE to only the full-attention layers of a small-window SWA hybrid substantially improves long-context performance with negligible impact on short-context performance.