Wann mildert Sparsität den Fluch der Tiefe in großen Sprachmodellen?

Zusammenfassung

Aktuelle Studien haben den Fluch der Tiefe in großen Sprachmodellen (LLMs) aufgezeigt, bei dem spätere Schichten weniger zum Lernen und zur Repräsentation beitragen als frühere Schichten. Diese Unterauslastung wird mit dem akkumulierten Anstieg der Varianz in Pre-Layer-Normalisierung in Verbindung gebracht, der tiefe Blöcke in Richtung eines nahezu identischen Verhaltens drängen kann. In dieser Arbeit zeigen wir, dass Sparsity – über Effizienzgewinne hinaus – als Regulator der Varianzausbreitung wirkt und dadurch die Tiefenauslastung verbessert. Unsere Untersuchung umfasst zwei Quellen von Sparsity: (i) implizite Sparsity, die aus Trainings- und Datenbedingungen entsteht, einschließlich Gewichtssparsity durch Weight Decay und Aufmerksamkeitssparsity durch lange Kontextinputs; und (ii) explizite Sparsity, die durch Architekturdesign erzwungen wird, einschließlich Key/Value-Sharing-Sparsity in Grouped-Query-Attention und Expert-Activation-Sparsity in Mixture-of-Experts. Unsere Behauptung wird umfassend durch kontrollierte Tiefenskalierexperimente und gezielte Eingriffe zur Schichteneffektivität gestützt. In allen Settings beobachten wir einen konsistenten Zusammenhang: Sparsity verbessert die Schichtenauslastung durch Reduzierung der Ausgangsvarianz und Förderung funktionaler Differenzierung. Letztlich fassen wir unsere Erkenntnisse in einer praktischen Faustregel für das Training tiefeneffektiver LLMs zusammen, die eine bemerkenswerte Verbesserung der Genauigkeit um 4,6 % bei Downstream-Aufgaben erzielt. Unsere Ergebnisse zeigen, dass Sparsity, die natürlich aus Standard-Designentscheidungen entsteht, ein bisher übersehener Schlüsselmechanismus für effektives Tiefenscaling in LLMs ist. Code ist verfügbar unter https://github.com/pUmpKin-Co/SparsityAndCoD.

English

Recent work has demonstrated the curse of depth in large language models (LLMs), where later layers contribute less to learning and representation than earlier layers. Such under-utilization is linked to the accumulated growth of variance in Pre-Layer Normalization, which can push deep blocks toward near-identity behavior. In this paper, we demonstrate that, sparsity, beyond enabling efficiency, acts as a regulator of variance propagation and thereby improves depth utilization. Our investigation covers two sources of sparsity: (i) implicit sparsity, which emerges from training and data conditions, including weight sparsity induced by weight decay and attention sparsity induced by long context inputs; and (ii) explicit sparsity, which is enforced by architectural design, including key/value-sharing sparsity in Grouped-Query Attention and expert-activation sparsity in Mixtureof-Experts. Our claim is thoroughly supported by controlled depth-scaling experiments and targeted layer effectiveness interventions. Across settings, we observe a consistent relationship: sparsity improves layer utilization by reducing output variance and promoting functional differentiation. We eventually distill our findings into a practical rule-of-thumb recipe for training deptheffective LLMs, yielding a notable 4.6% accuracy improvement on downstream tasks. Our results reveal sparsity, arising naturally from standard design choices, as a key yet previously overlooked mechanism for effective depth scaling in LLMs. Code is available at https://github.com/pUmpKin-Co/SparsityAndCoD.

Wann mildert Sparsität den Fluch der Tiefe in großen Sprachmodellen?

When Does Sparsity Mitigate the Curse of Depth in LLMs

Zusammenfassung

Support