Dualidade do Fluxo Residual em Arquiteturas Modernas de Transformadores
Residual Stream Duality in Modern Transformer Architectures
March 17, 2026
Autores: Yifan Zhang
cs.AI
Resumo
Trabalhos recentes deixaram claro que o caminho residual não é mera infraestrutura de otimização; ele é parte da maquinaria representacional do modelo. Nós concordamos, mas argumentamos que a forma mais clara de organizar este espaço de projeto é através de uma visão de dois eixos do Transformer. Um decodificador evolui a informação ao longo de duas dimensões ordenadas: a posição na sequência e a profundidade da camada. A auto-atenção já fornece uma combinação adaptativa ao longo do eixo da sequência, enquanto o fluxo residual normalmente realiza uma adição fixa ao longo do eixo de profundidade. Se fixarmos uma posição de token e tratarmos o índice da camada como a variável ordenada, então uma leitura de atenção residual causal em profundidade é exatamente o mesmo operador local que a atenção causal por janela deslizante curta (ShortSWA), exceto por ser escrita sobre a profundidade em vez de sobre a sequência. Esta é a dualidade central do fluxo residual por trás do Transformer^2. Esta perspectiva também esclarece a literatura recente. ELC-BERT e DenseFormer já mostram que a agregação aprendida sobre a profundidade pode superar o acúmulo residual uniforme, enquanto Vertical Attention, DeepCrossAttention (DCA), MUDDFormer e Attention Residuals avançam ainda mais em direção a um roteamento explícito baseado em atenção sobre camadas anteriores. O ponto-chave, no entanto, é que a dualidade a nível de operador não implica simetria a nível de sistema. Para modelos autoregressivos de grande escala, o ShortSWA no eixo da sequência é geralmente a posição mais amigável ao *hardware*, pois reutiliza *kernels* de janela deslizante no lado do *token*, layouts de *KV-cache* e execução em blocos. Se o objetivo, em vez disso, é alterar o próprio atalho, a Aprendizagem Delta Profunda (DDL) é a intervenção mais limpa porque modifica o operador residual diretamente, em vez de adicionar um caminho de recuperação entre camadas separado. Nossa recomendação é, portanto, simples: use DDL quando o atalho é o objeto de interesse, e use o ShortSWA no eixo da sequência quando o objetivo é uma combinação adaptativa local.
English
Recent work has made clear that the residual pathway is not mere optimization plumbing; it is part of the model's representational machinery. We agree, but argue that the cleanest way to organize this design space is through a two-axis view of the Transformer. A decoder evolves information along two ordered dimensions: sequence position and layer depth. Self-attention already provides adaptive mixing along the sequence axis, whereas the residual stream usually performs fixed addition along the depth axis. If we fix a token position and treat layer index as the ordered variable, then a causal depth-wise residual attention read is exactly the same local operator as causal short sliding-window attention (ShortSWA), except written over depth rather than over sequence. This is the core residual stream duality behind Transformer^2. This perspective also clarifies the recent literature. ELC-BERT and DenseFormer already show that learned aggregation over depth can outperform uniform residual accumulation, while Vertical Attention, DeepCrossAttention (DCA), MUDDFormer, and Attention Residuals move further toward explicit attention-based routing over earlier layers. The key point, however, is that operator-level duality does not imply systems-level symmetry. For large-scale autoregressive models, sequence-axis ShortSWA is usually the more hardware-friendly placement because it reuses token-side sliding-window kernels, KV-cache layouts, and chunked execution. If the goal is instead to change the shortcut itself, Deep Delta Learning (DDL) is the cleaner intervention because it modifies the residual operator directly rather than adding a separate cross-layer retrieval path. Our recommendation is therefore simple: use DDL when the shortcut is the object of interest, and use sequence-axis ShortSWA when the goal is local adaptive mixing.