Двойственность остаточного потока в современных архитектурах трансформеров
Residual Stream Duality in Modern Transformer Architectures
March 17, 2026
Авторы: Yifan Zhang
cs.AI
Аннотация
Недавние исследования показали, что остаточные связи — это не просто инструмент оптимизации, а часть репрезентационного механизма модели. Мы согласны с этим, но считаем, что наиболее четкий способ организации этого пространства проектирования — двухосевое представление трансформера. Декодер развивает информацию вдоль двух упорядоченных измерений: позиции в последовательности и глубины слоя. Само-внимание уже обеспечивает адаптивное смешивание вдоль последовательностной оси, тогда как остаточный поток обычно выполняет фиксированное суммирование вдоль оси глубины. Если зафиксировать позицию токена и рассматривать индекс слоя как упорядоченную переменную, то причинно-следственное чтение с остаточным глубинным вниманием — это в точности тот же локальный оператор, что и причинно-следственное краткое скользящее оконное внимание (ShortSWA), только записанный по глубине, а не по последовательности. Это ключевая двойственность остаточного потока, лежащая в основе Transformer^2. Данная перспектива также проясняет последние публикации. Модели ELC-BERT и DenseFormer уже демонстрируют, что обученная агрегация по глубине может превзойти равномерное остаточное накопление, в то время как Vertical Attention, DeepCrossAttention (DCA), MUDDFormer и Attention Residuals продвигаются дальше в сторону явной маршрутизации на основе внимания между ранними слоями. Однако ключевой момент заключается в том, что двойственность на уровне операторов не подразумевает симметрии на системном уровне. Для крупных авторегрессионных моделей ShortSWA на последовательностной оси обычно является более удобным для аппаратного обеспечения решением, поскольку оно повторно использует ядра скользящего окна для токенов, структуры KV-кэша и чанковое выполнение. Если же цель — изменить сам шорткат, то Deep Delta Learning (DDL) является более чистым вмешательством, поскольку модифицирует сам остаточный оператор напрямую, а не добавляет отдельный путь кросс-слойного извлечения. Таким образом, наша рекомендация проста: используйте DDL, когда шорткат является объектом интереса, и используйте ShortSWA на последовательностной оси, когда цель — локальное адаптивное смешивание.
English
Recent work has made clear that the residual pathway is not mere optimization plumbing; it is part of the model's representational machinery. We agree, but argue that the cleanest way to organize this design space is through a two-axis view of the Transformer. A decoder evolves information along two ordered dimensions: sequence position and layer depth. Self-attention already provides adaptive mixing along the sequence axis, whereas the residual stream usually performs fixed addition along the depth axis. If we fix a token position and treat layer index as the ordered variable, then a causal depth-wise residual attention read is exactly the same local operator as causal short sliding-window attention (ShortSWA), except written over depth rather than over sequence. This is the core residual stream duality behind Transformer^2. This perspective also clarifies the recent literature. ELC-BERT and DenseFormer already show that learned aggregation over depth can outperform uniform residual accumulation, while Vertical Attention, DeepCrossAttention (DCA), MUDDFormer, and Attention Residuals move further toward explicit attention-based routing over earlier layers. The key point, however, is that operator-level duality does not imply systems-level symmetry. For large-scale autoregressive models, sequence-axis ShortSWA is usually the more hardware-friendly placement because it reuses token-side sliding-window kernels, KV-cache layouts, and chunked execution. If the goal is instead to change the shortcut itself, Deep Delta Learning (DDL) is the cleaner intervention because it modifies the residual operator directly rather than adding a separate cross-layer retrieval path. Our recommendation is therefore simple: use DDL when the shortcut is the object of interest, and use sequence-axis ShortSWA when the goal is local adaptive mixing.