Resíduos de Atenção Delta

Resumo

Os Resíduos de Atenção substituem as conexões residuais aditivas padrão por atenção softmax aprendida sobre as saídas de camadas anteriores, permitindo roteamento seletivo entre camadas. No entanto, os Resíduos de Atenção padrão ainda atendem sobre estados ocultos cumulativos em camadas anteriores, que são altamente redundantes. Mostramos que essa redundância leva ao colapso do roteamento em camadas mais profundas: os pesos de atenção tornam-se de baixo contraste e mais próximos de uniformes (peso máximo ≈ 0,2), limitando a capacidade do modelo de selecionar estados informativos em camadas anteriores. Isso levanta uma questão de design fundamental, porém pouco explorada: quais representações por camada devem ser roteadas nos Resíduos de Atenção? Para responder a essa pergunta, propomos os Resíduos de Atenção Delta, que atendem sobre deltas — a mudança introduzida por cada subcamada (v_i = h_{i+1} - h_i) — em vez de estados cumulativos. As representações delta são estruturalmente diversas e produzem distribuições de atenção de maior contraste (peso máximo ≈ 0,6), permitindo um roteamento mais seletivo e eficaz entre camadas. Esse princípio se aplica tanto na granularidade por subcamada quanto por bloco. Em todas as escalas testadas (220M–7,6B), os Resíduos de Atenção Delta superam consistentemente tanto os resíduos padrão quanto os Resíduos de Atenção, com ganhos de perplexidade de validação de 1,7–8,2%. Os Resíduos de Atenção Delta também permitem converter checkpoints pré-treinados em Resíduos de Atenção Delta via fine-tuning padrão. O código está disponível em https://github.com/wdlctc/delta-attention-residuals-code.

English

Attention Residuals replace standard additive residual connections with learned softmax attention over previous layer outputs, enabling selective cross-layer routing. However, standard Attention Residuals still attend over cumulative hidden states in previous layers, which are highly redundant. We show that this redundancy leads to routing collapse in deeper layers: attention weights become low-contrast and closer to uniform (max weight {approx}0.2), limiting the model's ability to select informative states in previous layers. This raises a key but underexplored design question: what layer-wise representations should be routed in Attention Residuals? To answer this question, we propose Delta Attention Residuals, which attend over deltas -- the change introduced by each sublayer (v_i = h_{i+1} - h_i) -- instead of cumulative states. Delta representations are structurally diverse and yield higher-contrast attention distributions (max weight {approx}0.6), enabling more selective and effective routing across layers. This principle applies at both per-sublayer and block granularity. Across all tested scales (220M--7.6B), Delta Attention Residuals consistently outperform both standard residuals and Attention Residuals, with 1.7--8.2\% validation perplexity gains. Delta Attention Residuals also enables converting pretrained checkpoints into Delta Attention Residuals via standard fine-tuning. Code is available at https://github.com/wdlctc/delta-attention-residuals-code.