ChatPaper.aiChatPaper

Dualität des Residualstroms in modernen Transformer-Architekturen

Residual Stream Duality in Modern Transformer Architectures

March 17, 2026
Autoren: Yifan Zhang
cs.AI

Zusammenfassung

Aktuelle Arbeiten haben deutlich gemacht, dass der Residualpfad nicht bloß Optimierungsinfrastruktur ist; er ist Teil der Repräsentationsmaschinerie des Modells. Wir stimmen dem zu, argumentieren aber, dass der klarste Weg, diesen Designraum zu organisieren, in einer Zwei-Achsen-Sicht des Transformers liegt. Ein Decoder entwickelt Information entlang zweier geordneter Dimensionen: Sequenzposition und Schichttiefe. Self-Attention bietet bereits adaptive Vermischung entlang der Sequenzachse, wohingegen der Residualstrom üblicherweise eine feste Addition entlang der Tiefenachse durchführt. Wenn wir eine Token-Position festhalten und den Schichtindex als die geordnete Variable betrachten, dann ist ein kausaler, tiefenweiser Residual-Attention-Lesevorgang exakt derselbe lokale Operator wie kausale Attention mit kurzem gleitendem Fenster (ShortSWA), nur über die Tiefe anstatt über die Sequenz geschrieben. Dies ist die zentrale Residualstrom-Dualität hinter Transformer^2. Diese Perspektive klärt auch die aktuelle Literatur. ELC-BERT und DenseFormer zeigen bereits, dass gelernte Aggregation über die Tiefe eine gleichmäßige Residualakkumulation übertreffen kann, während Vertical Attention, DeepCrossAttention (DCA), MUDDFormer und Attention Residuals weiter in Richtung eines expliziten, auf Attention basierenden Routings über frühere Schichten gehen. Der entscheidende Punkt ist jedoch, dass Dualität auf Operatorenebene keine Symmetrie auf Systemebene impliziert. Für großskalige autoregressive Modelle ist Sequenzachsen-ShortSWA üblicherweise die hardwarefreundlichere Platzierung, da sie Token-seitige Kernel für gleitende Fenster, KV-Cache-Layouts und chunkweise Ausführung wiederverwendet. Wenn das Ziel stattdessen ist, den Shortcut selbst zu verändern, ist Deep Delta Learning (DDL) die elegantere Intervention, da sie den Residual-Operator direkt modifiziert, anstatt einen separaten pfadübergreifenden Retrieval-Pfad hinzuzufügen. Unsere Empfehlung ist daher einfach: Verwenden Sie DDL, wenn der Shortcut der Untersuchungsgegenstand ist, und verwenden Sie Sequenzachsen-ShortSWA, wenn das Ziel lokale adaptive Vermischung ist.
English
Recent work has made clear that the residual pathway is not mere optimization plumbing; it is part of the model's representational machinery. We agree, but argue that the cleanest way to organize this design space is through a two-axis view of the Transformer. A decoder evolves information along two ordered dimensions: sequence position and layer depth. Self-attention already provides adaptive mixing along the sequence axis, whereas the residual stream usually performs fixed addition along the depth axis. If we fix a token position and treat layer index as the ordered variable, then a causal depth-wise residual attention read is exactly the same local operator as causal short sliding-window attention (ShortSWA), except written over depth rather than over sequence. This is the core residual stream duality behind Transformer^2. This perspective also clarifies the recent literature. ELC-BERT and DenseFormer already show that learned aggregation over depth can outperform uniform residual accumulation, while Vertical Attention, DeepCrossAttention (DCA), MUDDFormer, and Attention Residuals move further toward explicit attention-based routing over earlier layers. The key point, however, is that operator-level duality does not imply systems-level symmetry. For large-scale autoregressive models, sequence-axis ShortSWA is usually the more hardware-friendly placement because it reuses token-side sliding-window kernels, KV-cache layouts, and chunked execution. If the goal is instead to change the shortcut itself, Deep Delta Learning (DDL) is the cleaner intervention because it modifies the residual operator directly rather than adding a separate cross-layer retrieval path. Our recommendation is therefore simple: use DDL when the shortcut is the object of interest, and use sequence-axis ShortSWA when the goal is local adaptive mixing.
PDF12March 19, 2026