Neubewertung der Rolle effizienter Aufmerksamkeit in hybriden Architekturen

Zusammenfassung

Moderne Sprachmodelle übernehmen zunehmend hybride Architekturen, die vollständige Attention mit effizienten Attention-Modulen wie gleitender Fenster-Attention (SWA) und rekurrenten Sequenzmischern kombinieren. Allerdings ist bislang nur unzureichend verstanden, wie diese effizienten Module die Fähigkeiten von Modellen prägen. Um diese Lücke zu schließen, führen wir eine systematische Analyse hybrider Architekturen aus drei Perspektiven durch: Skalierungsverhalten, Mechanismusanalyse und Architekturentwurf. Erstens stellen wir aus Skalierungsperspektive fest, dass das Design effizienter Attention hauptsächlich beeinflusst, wie schnell die Langkontextfähigkeit entsteht, während verschiedene Hybride bei ausreichendem Training letztlich zu vergleichbarer Langkontextleistung konvergieren. Zweitens zeigen wir mechanistisch, dass der Retrieval über große Distanzen hauptsächlich durch vollständige Attention getragen wird, während effiziente Attention dessen Optimierungstrajektorie prägt. Dies erklärt ein kontraintuitives Phänomen, das wir als „Trägheit großer Fenster“ (Large-Window Laziness) bezeichnen: größere SWA-Fenster können die Bildung von Retrieval-Heads in Full-Attention-Schichten verzögern. Drittens zeigen wir, geleitet von diesem Mechanismus, dass die Anwendung von NoPE ausschließlich auf die Full-Attention-Schichten eines SWA-Hybrids mit kleinen Fenstern die Langkontextleistung erheblich verbessert, bei vernachlässigbarer Auswirkung auf die Kurzkontextleistung.

English

Modern language models increasingly adopt hybrid architectures that combine full attention with efficient attention modules, such as sliding-window attention (SWA) and recurrent sequence mixers. However, how these efficient modules shape model capabilities remains poorly understood. To address this gap, we conduct a systematic analysis across hybrid architectures from three perspectives: scaling behavior, mechanism analysis, and architecture design. First, from a scaling perspective, we find that efficient-attention design primarily affects how fast long-context capability emerges, while different hybrids eventually converge to comparable long-context performance under sufficient training. Second, mechanistically, we show that long-range retrieval is mainly carried by full attention, whereas efficient attention shapes its optimization trajectory. This explains a counter-intuitive phenomenon we call Large-Window Laziness: larger SWA windows can delay the formation of retrieval heads in full-attention layers. Third, guided by this mechanism, we show that applying NoPE to only the full-attention layers of a small-window SWA hybrid substantially improves long-context performance with negligible impact on short-context performance.