Aufmerksamkeitsresiduen

Zusammenfassung

Residualverbindungen mit PreNorm sind in modernen großen Sprachmodellen Standard, akkumulieren jedoch alle Schichtenausgaben mit festen Einheitsgewichten. Diese gleichförmige Aggregation führt zu einem unkontrollierten Wachstum des Hidden-State mit zunehmender Tiefe, wodurch der Beitrag jeder Schicht fortschreitend verdünnt wird. Wir schlagen Attention Residuals (AttnRes) vor, das diese feste Akkumulation durch Softmax-Attention über vorherige Schichtenausgaben ersetzt. Dies ermöglicht es jeder Schicht, frühere Repräsentationen mit gelernten, eingabeabhängigen Gewichten selektiv zu aggregieren. Um den Speicher- und Kommunikationsmehraufwand zu adressieren, der durch das Attention-Mechanismus über alle vorherigen Schichtenausgaben beim Training großskaliger Modelle entsteht, führen wir Block AttnRes ein. Dies unterteilt die Schichten in Blöcke und wendet Attention auf Block-Repräsentationen an, wodurch der Speicherbedarf reduziert wird, während der Großteil der Vorteile von vollständigem AttnRes erhalten bleibt. In Kombination mit cache-basierter Pipeline-Kommunikation und einer Zwei-Phasen-Berechnungsstrategie wird Block AttnRes zu einem praktischen Drop-in-Ersatz für standardmäßige Residualverbindungen mit minimalem Overhead. Skalierungsgesetz-Experimente bestätigen, dass die Verbesserung über verschiedene Modellgrößen hinweg konsistent ist, und Ablationstudien validieren den Nutzen der inhaltsabhängigen, tiefenweisen Selektion. Wir integrieren AttnRes weiterhin in die Kimi Linear-Architektur (48B gesamt / 3B aktivierte Parameter) und führen ein Pre-Training auf 1,4T Tokens durch. Hier mildert AttnRes die PreNorm-Verdünnung ab, was zu gleichmäßigeren Ausgabeamplituden und Gradientenverteilungen über die Tiefe hinweg führt und die Leistung bei nachgelagerten Aufgaben in allen evaluierten Bereichen verbessert.

English

Residual connections with PreNorm are standard in modern LLMs, yet they accumulate all layer outputs with fixed unit weights. This uniform aggregation causes uncontrolled hidden-state growth with depth, progressively diluting each layer's contribution. We propose Attention Residuals (AttnRes), which replaces this fixed accumulation with softmax attention over preceding layer outputs, allowing each layer to selectively aggregate earlier representations with learned, input-dependent weights. To address the memory and communication overhead of attending over all preceding layer outputs for large-scale model training, we introduce Block AttnRes, which partitions layers into blocks and attends over block-level representations, reducing the memory footprint while preserving most of the gains of full AttnRes. Combined with cache-based pipeline communication and a two-phase computation strategy, Block AttnRes becomes a practical drop-in replacement for standard residual connections with minimal overhead. Scaling law experiments confirm that the improvement is consistent across model sizes, and ablations validate the benefit of content-dependent depth-wise selection. We further integrate AttnRes into the Kimi Linear architecture (48B total / 3B activated parameters) and pre-train on 1.4T tokens, where AttnRes mitigates PreNorm dilution, yielding more uniform output magnitudes and gradient distribution across depth, and improves downstream performance across all evaluated tasks.