Dualiteit van de Reststroom in Moderne Transformer-Architecturen
Residual Stream Duality in Modern Transformer Architectures
March 17, 2026
Auteurs: Yifan Zhang
cs.AI
Samenvatting
Recente studies hebben duidelijk gemaakt dat het restpad niet slechts een optimalisatietechniek is; het maakt deel uit van de representatiemachinerie van het model. Wij zijn het daarmee eens, maar beargumenteren dat de meest elegante manier om deze ontwerpruimte te organiseren een tweedimensionaal perspectief op de Transformer is. Een decoder ontwikkelt informatie langs twee geordende dimensies: sequentiepositie en laagdiepte. Zelf-attentie zorgt reeds voor adaptieve mixing langs de sequentie-as, terwijl de reststroom doorgaans vaste optelling langs de diepte-as uitvoert. Als we een tokenpositie fixeren en de laagindex als de geordende variabele beschouwen, dan is een causale dieptegewijze rest-attentie-lezing exact dezelfde lokale operator als causale aandacht met een kort glijdend venster (ShortSWA), maar dan geschreven over diepte in plaats van over de sequentie. Dit is de kern van de reststroomdualiteit achter Transformer^2. Dit perspectief verduidelijkt ook de recente literatuur. ELC-BERT en DenseFormer tonen reeds aan dat geleerde aggregatie over diepte uniforme restaccumulatie kan overtreffen, terwijl Verticale Aandacht, DeepCrossAttention (DCA), MUDDFormer en Attention Residuals verder gaan in de richting van expliciete op aandacht gebaseerde routing over eerdere lagen. Het cruciale punt is echter dat dualiteit op operatorniveau geen symmetrie op systeemniveau impliceert. Voor grootschalige autoregressieve modellen is sequentie-as ShortSWA doorgaans de hardwarevriendelijkere plaatsing omdat het token-gebaseerde kernels voor glijdende vensters, KV-cache-lay-outs en uitgevoerde chunks hergebruikt. Als het doel daarentegen is de shortcut zelf te veranderen, dan is Deep Delta Learning (DDL) de schonere interventie omdat het de restoperator direct wijzigt in plaats van een apart cross-layer retrieval-pad toe te voegen. Ons advies is daarom eenvoudig: gebruik DDL wanneer de shortcut het onderwerp van interesse is, en gebruik sequentie-as ShortSWA wanneer het doel lokale adaptieve mixing is.
English
Recent work has made clear that the residual pathway is not mere optimization plumbing; it is part of the model's representational machinery. We agree, but argue that the cleanest way to organize this design space is through a two-axis view of the Transformer. A decoder evolves information along two ordered dimensions: sequence position and layer depth. Self-attention already provides adaptive mixing along the sequence axis, whereas the residual stream usually performs fixed addition along the depth axis. If we fix a token position and treat layer index as the ordered variable, then a causal depth-wise residual attention read is exactly the same local operator as causal short sliding-window attention (ShortSWA), except written over depth rather than over sequence. This is the core residual stream duality behind Transformer^2. This perspective also clarifies the recent literature. ELC-BERT and DenseFormer already show that learned aggregation over depth can outperform uniform residual accumulation, while Vertical Attention, DeepCrossAttention (DCA), MUDDFormer, and Attention Residuals move further toward explicit attention-based routing over earlier layers. The key point, however, is that operator-level duality does not imply systems-level symmetry. For large-scale autoregressive models, sequence-axis ShortSWA is usually the more hardware-friendly placement because it reuses token-side sliding-window kernels, KV-cache layouts, and chunked execution. If the goal is instead to change the shortcut itself, Deep Delta Learning (DDL) is the cleaner intervention because it modifies the residual operator directly rather than adding a separate cross-layer retrieval path. Our recommendation is therefore simple: use DDL when the shortcut is the object of interest, and use sequence-axis ShortSWA when the goal is local adaptive mixing.