Переосмысление роли эффективного внимания в гибридных архитектурах

Аннотация

Современные языковые модели все чаще используют гибридные архитектуры, сочетающие полное внимание с эффективными модулями внимания, такими как скользящее окно внимания (SWA) и рекуррентные смесители последовательностей. Однако то, как эти эффективные модули формируют возможности моделей, остается плохо изученным. Для восполнения этого пробела мы проводим систематический анализ гибридных архитектур с трех точек зрения: поведения при масштабировании, анализа механизмов и дизайна архитектуры. Во-первых, с точки зрения масштабирования, мы обнаруживаем, что дизайн эффективного внимания в первую очередь влияет на скорость проявления способности к работе с длинным контекстом, в то время как различные гибриды в конечном итоге сходятся к сопоставимой производительности на длинных контекстах при достаточном обучении. Во-вторых, с точки зрения механизмов, мы показываем, что извлечение информации на больших расстояниях в основном осуществляется полным вниманием, тогда как эффективное внимание формирует траекторию его оптимизации. Это объясняет контринтуитивный феномен, который мы называем леностью большого окна (Large-Window Laziness): большие окна SWA могут задерживать формирование извлекающих голов в слоях полного внимания. В-третьих, руководствуясь этим механизмом, мы показываем, что применение NoPE только к слоям полного внимания в гибриде с малым окном SWA существенно улучшает производительность на длинных контекстах при незначительном влиянии на производительность на коротких контекстах.

English

Modern language models increasingly adopt hybrid architectures that combine full attention with efficient attention modules, such as sliding-window attention (SWA) and recurrent sequence mixers. However, how these efficient modules shape model capabilities remains poorly understood. To address this gap, we conduct a systematic analysis across hybrid architectures from three perspectives: scaling behavior, mechanism analysis, and architecture design. First, from a scaling perspective, we find that efficient-attention design primarily affects how fast long-context capability emerges, while different hybrids eventually converge to comparable long-context performance under sufficient training. Second, mechanistically, we show that long-range retrieval is mainly carried by full attention, whereas efficient attention shapes its optimization trajectory. This explains a counter-intuitive phenomenon we call Large-Window Laziness: larger SWA windows can delay the formation of retrieval heads in full-attention layers. Third, guided by this mechanism, we show that applying NoPE to only the full-attention layers of a small-window SWA hybrid substantially improves long-context performance with negligible impact on short-context performance.