Repenser le rôle de l'attention efficace dans les architectures hybrides

Résumé

Les modèles de langage modernes adoptent de plus en plus des architectures hybrides qui combinent une attention complète avec des modules d'attention efficaces, tels que l'attention à fenêtre glissante (AFG) et les mélangeurs de séquences récurrents. Cependant, la manière dont ces modules efficaces façonnent les capacités des modèles reste mal comprise. Pour combler cette lacune, nous menons une analyse systématique des architectures hybrides sous trois angles : le comportement de passage à l'échelle, l'analyse des mécanismes et la conception architecturale. Premièrement, du point de vue du passage à l'échelle, nous constatons que la conception de l'attention efficace influence principalement la rapidité d'émergence de la capacité à traiter de longs contextes, tandis que différentes architectures hybrides convergent finalement vers des performances comparables pour les longs contextes sous un entraînement suffisant. Deuxièmement, sur le plan mécanistique, nous montrons que la récupération à longue portée est principalement assurée par l'attention complète, tandis que l'attention efficace façonne sa trajectoire d'optimisation. Cela explique un phénomène contre-intuitif que nous appelons la Paresse des Grandes Fenêtres : des fenêtres glissantes plus grandes peuvent retarder la formation de têtes de récupération dans les couches d'attention complète. Troisièmement, guidés par ce mécanisme, nous montrons que l'application de NoPE uniquement aux couches d'attention complète d'une hybride AFG à petite fenêtre améliore considérablement les performances sur les longs contextes, avec un impact négligeable sur les performances sur les courts contextes.

English

Modern language models increasingly adopt hybrid architectures that combine full attention with efficient attention modules, such as sliding-window attention (SWA) and recurrent sequence mixers. However, how these efficient modules shape model capabilities remains poorly understood. To address this gap, we conduct a systematic analysis across hybrid architectures from three perspectives: scaling behavior, mechanism analysis, and architecture design. First, from a scaling perspective, we find that efficient-attention design primarily affects how fast long-context capability emerges, while different hybrids eventually converge to comparable long-context performance under sufficient training. Second, mechanistically, we show that long-range retrieval is mainly carried by full attention, whereas efficient attention shapes its optimization trajectory. This explains a counter-intuitive phenomenon we call Large-Window Laziness: larger SWA windows can delay the formation of retrieval heads in full-attention layers. Third, guided by this mechanism, we show that applying NoPE to only the full-attention layers of a small-window SWA hybrid substantially improves long-context performance with negligible impact on short-context performance.