Delta-Aufmerksamkeitsresiduen

Zusammenfassung

Aufmerksamkeits-Residuen ersetzen standardmäßige additive residual-Verbindungen durch erlernte Softmax-Aufmerksamkeit über die Ausgaben vorheriger Schichten, was eine selektive schichtübergreifende Weiterleitung ermöglicht. Allerdings richten sich standardmäßige Aufmerksamkeits-Residuen weiterhin auf kumulative verborgene Zustände in vorherigen Schichten, die hochgradig redundant sind. Wir zeigen, dass diese Redundanz zu einem Routing-Kollaps in tieferen Schichten führt: Die Aufmerksamkeitsgewichte werden kontrastarm und nähern sich der Gleichverteilung (maximales Gewicht ca. 0,2), was die Fähigkeit des Modells einschränkt, informative Zustände in vorherigen Schichten auszuwählen. Dies wirft eine zentrale, aber bislang wenig untersuchte Designfrage auf: Welche schichtweisen Repräsentationen sollten in Aufmerksamkeits-Residuen weitergeleitet werden? Zur Beantwortung dieser Frage schlagen wir Delta-Aufmerksamkeits-Residuen vor, die sich auf Deltas konzentrieren – die Änderung, die durch jede Unterschicht eingeführt wird (v_i = h_{i+1} - h_i) – anstatt auf kumulative Zustände. Delta-Repräsentationen sind strukturell vielfältig und ergeben kontrastreichere Aufmerksamkeitsverteilungen (maximales Gewicht ca. 0,6), was eine selektivere und effektivere Weiterleitung über Schichten hinweg ermöglicht. Dieses Prinzip gilt sowohl auf der Ebene einzelner Unterschichten als auch auf Blockebene. Über alle getesteten Modellgrößen hinweg (220M–7,6B) übertreffen Delta-Aufmerksamkeits-Residuen sowohl standardmäßige Residuen als auch Aufmerksamkeits-Residuen durchgängig, mit einer Verbesserung der Validierungs-Perplexität um 1,7–8,2 %. Delta-Aufmerksamkeits-Residuen ermöglichen zudem die Umwandlung vortrainierter Prüfpunkte in Delta-Aufmerksamkeits-Residuen mittels standardmäßigem Feintuning. Code ist verfügbar unter https://github.com/wdlctc/delta-attention-residuals-code.

English

Attention Residuals replace standard additive residual connections with learned softmax attention over previous layer outputs, enabling selective cross-layer routing. However, standard Attention Residuals still attend over cumulative hidden states in previous layers, which are highly redundant. We show that this redundancy leads to routing collapse in deeper layers: attention weights become low-contrast and closer to uniform (max weight {approx}0.2), limiting the model's ability to select informative states in previous layers. This raises a key but underexplored design question: what layer-wise representations should be routed in Attention Residuals? To answer this question, we propose Delta Attention Residuals, which attend over deltas -- the change introduced by each sublayer (v_i = h_{i+1} - h_i) -- instead of cumulative states. Delta representations are structurally diverse and yield higher-contrast attention distributions (max weight {approx}0.6), enabling more selective and effective routing across layers. This principle applies at both per-sublayer and block granularity. Across all tested scales (220M--7.6B), Delta Attention Residuals consistently outperform both standard residuals and Attention Residuals, with 1.7--8.2\% validation perplexity gains. Delta Attention Residuals also enables converting pretrained checkpoints into Delta Attention Residuals via standard fine-tuning. Code is available at https://github.com/wdlctc/delta-attention-residuals-code.