Residuales de Atención Delta

Resumen

Los Residuales de Atención reemplazan las conexiones residuales aditivas estándar con atención softmax aprendida sobre las salidas de capas anteriores, lo que permite un enrutamiento selectivo entre capas. Sin embargo, los Residuales de Atención estándar aún atienden sobre estados ocultos acumulados en capas anteriores, los cuales son altamente redundantes. Demostramos que esta redundancia lleva a un colapso del enrutamiento en capas profundas: los pesos de atención se vuelven de bajo contraste y más cercanos a la uniformidad (peso máximo ≈0.2), limitando la capacidad del modelo para seleccionar estados informativos en capas anteriores. Esto plantea una pregunta de diseño clave pero poco explorada: ¿qué representaciones por capa deberían enrutarse en los Residuales de Atención? Para responder esta pregunta, proponemos los Residuales de Atención Delta, que atienden sobre deltas — el cambio introducido por cada subcapa (v_i = h_{i+1} - h_i) — en lugar de estados acumulados. Las representaciones delta son estructuralmente diversas y producen distribuciones de atención de mayor contraste (peso máximo ≈0.6), permitiendo un enrutamiento más selectivo y efectivo entre capas. Este principio se aplica tanto a nivel de subcapa como de bloque granular. En todas las escalas evaluadas (220M—7.6B), los Residuales de Atención Delta superan consistentemente tanto a los residuales estándar como a los Residuales de Atención, con mejoras de 1.7—8.2% en perplejidad de validación. Los Residuales de Atención Delta también permiten convertir puntos de control preentrenados en Residuales de Atención Delta mediante ajuste fino estándar. El código está disponible en https://github.com/wdlctc/delta-attention-residuals-code.

English

Attention Residuals replace standard additive residual connections with learned softmax attention over previous layer outputs, enabling selective cross-layer routing. However, standard Attention Residuals still attend over cumulative hidden states in previous layers, which are highly redundant. We show that this redundancy leads to routing collapse in deeper layers: attention weights become low-contrast and closer to uniform (max weight {approx}0.2), limiting the model's ability to select informative states in previous layers. This raises a key but underexplored design question: what layer-wise representations should be routed in Attention Residuals? To answer this question, we propose Delta Attention Residuals, which attend over deltas -- the change introduced by each sublayer (v_i = h_{i+1} - h_i) -- instead of cumulative states. Delta representations are structurally diverse and yield higher-contrast attention distributions (max weight {approx}0.6), enabling more selective and effective routing across layers. This principle applies at both per-sublayer and block granularity. Across all tested scales (220M--7.6B), Delta Attention Residuals consistently outperform both standard residuals and Attention Residuals, with 1.7--8.2\% validation perplexity gains. Delta Attention Residuals also enables converting pretrained checkpoints into Delta Attention Residuals via standard fine-tuning. Code is available at https://github.com/wdlctc/delta-attention-residuals-code.