Dualité du flux résiduel dans les architectures de transformateurs modernes

Résumé

Des travaux récents ont montré que le chemin résiduel n'est pas une simple commodité d'optimisation ; il fait partie intégrante de la machinerie représentationnelle du modèle. Nous sommes d'accord, mais nous soutenons que la manière la plus claire d'organiser cet espace de conception passe par une vision à deux axes du Transformer. Un décodeur fait évoluer l'information selon deux dimensions ordonnées : la position dans la séquence et la profondeur des couches. L'auto-attention assure déjà un mélange adaptatif le long de l'axe séquentiel, tandis que le flux résiduel effectue généralement une addition fixe le long de l'axe de profondeur. Si nous fixons une position de token et traitons l'indice de couche comme la variable ordonnée, alors une lecture par attention résiduelle en profondeur causale est exactement le même opérateur local que l'attention causale par fenêtre glissante courte (ShortSWA), sauf qu'elle s'écrit sur la profondeur plutôt que sur la séquence. C'est la dualité fondamentale du flux résiduel qui sous-tend Transformer^2. Cette perspective éclaire également la littérature récente. ELC-BERT et DenseFormer montrent déjà qu'une agrégation apprise sur la profondeur peut surpasser l'accumulation résiduelle uniforme, tandis que l'Attention Verticale, DeepCrossAttention (DCA), MUDDFormer et les Attention Residuals vont plus loin vers un routage explicite par attention sur les couches antérieures. Le point clé, cependant, est que la dualité au niveau de l'opérateur n'implique pas une symétrie au niveau du système. Pour les modèles autorégressifs à grande échelle, le ShortSWA sur l'axe séquentiel est généralement le placement le plus adapté au matériel car il réutilise les noyaux de fenêtre glissante côté token, les layouts de cache KV et l'exécution par blocs. Si l'objectif est plutôt de modifier la connexion directe elle-même, le Deep Delta Learning (DDL) est l'intervention plus directe car il modifie l'opérateur résiduel directement plutôt que d'ajouter un chemin de récupération inter-couches séparé. Notre recommandation est donc simple : utilisez le DDL lorsque la connexion directe est l'objet d'étude, et utilisez le ShortSWA sur l'axe séquentiel lorsque l'objectif est un mélange adaptatif local.

English

Recent work has made clear that the residual pathway is not mere optimization plumbing; it is part of the model's representational machinery. We agree, but argue that the cleanest way to organize this design space is through a two-axis view of the Transformer. A decoder evolves information along two ordered dimensions: sequence position and layer depth. Self-attention already provides adaptive mixing along the sequence axis, whereas the residual stream usually performs fixed addition along the depth axis. If we fix a token position and treat layer index as the ordered variable, then a causal depth-wise residual attention read is exactly the same local operator as causal short sliding-window attention (ShortSWA), except written over depth rather than over sequence. This is the core residual stream duality behind Transformer^2. This perspective also clarifies the recent literature. ELC-BERT and DenseFormer already show that learned aggregation over depth can outperform uniform residual accumulation, while Vertical Attention, DeepCrossAttention (DCA), MUDDFormer, and Attention Residuals move further toward explicit attention-based routing over earlier layers. The key point, however, is that operator-level duality does not imply systems-level symmetry. For large-scale autoregressive models, sequence-axis ShortSWA is usually the more hardware-friendly placement because it reuses token-side sliding-window kernels, KV-cache layouts, and chunked execution. If the goal is instead to change the shortcut itself, Deep Delta Learning (DDL) is the cleaner intervention because it modifies the residual operator directly rather than adding a separate cross-layer retrieval path. Our recommendation is therefore simple: use DDL when the shortcut is the object of interest, and use sequence-axis ShortSWA when the goal is local adaptive mixing.

Dualité du flux résiduel dans les architectures de transformateurs modernes

Residual Stream Duality in Modern Transformer Architectures

Résumé

Support