Dualidad de la Corriente Residual en Arquitecturas de Transformadores Modernos

Resumen

Trabajos recientes han dejado claro que la vía residual no es un mero recurso de optimización; forma parte de la maquinaria de representación del modelo. Estamos de acuerdo, pero argumentamos que la forma más clara de organizar este espacio de diseño es mediante una visión de dos ejes del Transformer. Un decodificador evoluciona la información a lo largo de dos dimensiones ordenadas: la posición en la secuencia y la profundidad de las capas. La autoatención ya proporciona una mezcla adaptativa a lo largo del eje de la secuencia, mientras que el flujo residual generalmente realiza una suma fija a lo largo del eje de profundidad. Si fijamos una posición de token y tratamos el índice de capa como la variable ordenada, entonces una lectura de atención residual causal en profundidad es exactamente el mismo operador local que la autoatención causal de ventana deslizante corta (ShortSWA), excepto que se escribe sobre la profundidad en lugar de sobre la secuencia. Esta es la dualidad central del flujo residual detrás de Transformer^2. Esta perspectiva también aclara la literatura reciente. ELC-BERT y DenseFormer ya muestran que una agregación aprendida sobre la profundidad puede superar a la acumulación residual uniforme, mientras que Vertical Attention, DeepCrossAttention (DCA), MUDDFormer y Attention Residuals avanzan más hacia un enrutamiento explícito basado en atención sobre capas anteriores. Sin embargo, el punto clave es que la dualidad a nivel de operador no implica simetría a nivel de sistema. Para los modelos autoregresivos a gran escala, ShortSWA en el eje de secuencia suele ser la ubicación más amigable con el hardware porque reutiliza kernels de ventana deslizante del lado del token, diseños de caché KV y ejecución por fragmentos. Si el objetivo es, en cambio, cambiar el atajo en sí, el Aprendizaje Delta Profundo (DDL) es la intervención más limpia porque modifica directamente el operador residual en lugar de añadir una ruta de recuperación entre capas separada. Por lo tanto, nuestra recomendación es simple: use DDL cuando el atajo es el objeto de interés, y use ShortSWA en el eje de secuencia cuando el objetivo es una mezcla adaptativa local.

English

Recent work has made clear that the residual pathway is not mere optimization plumbing; it is part of the model's representational machinery. We agree, but argue that the cleanest way to organize this design space is through a two-axis view of the Transformer. A decoder evolves information along two ordered dimensions: sequence position and layer depth. Self-attention already provides adaptive mixing along the sequence axis, whereas the residual stream usually performs fixed addition along the depth axis. If we fix a token position and treat layer index as the ordered variable, then a causal depth-wise residual attention read is exactly the same local operator as causal short sliding-window attention (ShortSWA), except written over depth rather than over sequence. This is the core residual stream duality behind Transformer^2. This perspective also clarifies the recent literature. ELC-BERT and DenseFormer already show that learned aggregation over depth can outperform uniform residual accumulation, while Vertical Attention, DeepCrossAttention (DCA), MUDDFormer, and Attention Residuals move further toward explicit attention-based routing over earlier layers. The key point, however, is that operator-level duality does not imply systems-level symmetry. For large-scale autoregressive models, sequence-axis ShortSWA is usually the more hardware-friendly placement because it reuses token-side sliding-window kernels, KV-cache layouts, and chunked execution. If the goal is instead to change the shortcut itself, Deep Delta Learning (DDL) is the cleaner intervention because it modifies the residual operator directly rather than adding a separate cross-layer retrieval path. Our recommendation is therefore simple: use DDL when the shortcut is the object of interest, and use sequence-axis ShortSWA when the goal is local adaptive mixing.

Dualidad de la Corriente Residual en Arquitecturas de Transformadores Modernos

Residual Stream Duality in Modern Transformer Architectures

Resumen

Support