Repensando el Papel de la Atención Eficiente en Arquitecturas Híbridas

Resumen

Los modelos de lenguaje modernos adoptan cada vez más arquitecturas híbridas que combinan atención completa con módulos de atención eficiente, como la atención de ventana deslizante (SWA) y los mezcladores recurrentes de secuencias. Sin embargo, cómo estos módulos eficientes moldean las capacidades del modelo sigue siendo poco comprendido. Para abordar esta brecha, realizamos un análisis sistemático en arquitecturas híbridas desde tres perspectivas: comportamiento de escalado, análisis de mecanismos y diseño de arquitecturas. Primero, desde una perspectiva de escalado, encontramos que el diseño de atención eficiente afecta principalmente la velocidad con la que emerge la capacidad de contexto largo, mientras que diferentes híbridos eventualmente convergen a un rendimiento comparable en contexto largo bajo entrenamiento suficiente. Segundo, mecánicamente, demostramos que la recuperación de largo alcance es llevada principalmente por la atención completa, mientras que la atención eficiente moldea su trayectoria de optimización. Esto explica un fenómeno contraintuitivo que denominamos Pereza de Ventana Grande: ventanas SWA más grandes pueden retrasar la formación de cabezales de recuperación en las capas de atención completa. Tercero, guiados por este mecanismo, mostramos que aplicar NoPE solo a las capas de atención completa de un híbrido SWA de ventana pequeña mejora sustancialmente el rendimiento en contexto largo con un impacto insignificante en el rendimiento en contexto corto.

English

Modern language models increasingly adopt hybrid architectures that combine full attention with efficient attention modules, such as sliding-window attention (SWA) and recurrent sequence mixers. However, how these efficient modules shape model capabilities remains poorly understood. To address this gap, we conduct a systematic analysis across hybrid architectures from three perspectives: scaling behavior, mechanism analysis, and architecture design. First, from a scaling perspective, we find that efficient-attention design primarily affects how fast long-context capability emerges, while different hybrids eventually converge to comparable long-context performance under sufficient training. Second, mechanistically, we show that long-range retrieval is mainly carried by full attention, whereas efficient attention shapes its optimization trajectory. This explains a counter-intuitive phenomenon we call Large-Window Laziness: larger SWA windows can delay the formation of retrieval heads in full-attention layers. Third, guided by this mechanism, we show that applying NoPE to only the full-attention layers of a small-window SWA hybrid substantially improves long-context performance with negligible impact on short-context performance.