Wanneer Verlicht Schaarste de Vloek van Diepte in LLM's?

Samenvatting

Recente studies hebben het zogenaamde 'vervloeking van de diepte' in grote taalmodellen (LLM's) aangetoond, waarbij latere lagen minder bijdragen aan het leren en de representatie dan eerdere lagen. Dit onderbenutting wordt in verband gebracht met de opgebouwde toename van variantie in Pre-Layer Normalisatie, wat diepe blokken naar een bijna-identiek gedrag kan drijven. In dit artikel tonen we aan dat sparsity, naast het mogelijk maken van efficiëntie, fungeert als een regulator van variantiepropagatie en daardoor de benutting van de diepte verbetert. Ons onderzoek omvat twee bronnen van sparsity: (i) impliciete sparsity, die voortkomt uit trainings- en datacondities, inclusief gewichtssparsity veroorzaakt door gewichtsverval en attentiesparsity veroorzaakt door lange contextinputs; en (ii) expliciete sparsity, die wordt afgedwongen door architectonisch ontwerp, inclusief key/value-delende sparsity in Grouped-Query Attention en expert-activeringssparsity in Mixture-of-Experts. Onze bewering wordt grondig ondersteund door gecontroleerde diepteschaalexperimenten en gerichte interventies in laageffectiviteit. In alle settings observeren we een consistent verband: sparsity verbetert de laagbenutting door de uitvoervariantie te verminderen en functionele differentiatie te bevorderen. Uiteindelijk distilleren we onze bevindingen in een praktische vuistregel voor het trainen van diepteffectieve LLM's, wat een opmerkelijke nauwkeurigheidsverbetering van 4,6% op downstreamtaken oplevert. Onze resultaten onthullen sparsity, die op natuurlijke wijze ontstaat uit standaard ontwerpkeuzes, als een belangrijke maar voorheen over het hoofd geziene mechanisme voor effectieve diepteschaling in LLM's. Code is beschikbaar op https://github.com/pUmpKin-Co/SparsityAndCoD.

English

Recent work has demonstrated the curse of depth in large language models (LLMs), where later layers contribute less to learning and representation than earlier layers. Such under-utilization is linked to the accumulated growth of variance in Pre-Layer Normalization, which can push deep blocks toward near-identity behavior. In this paper, we demonstrate that, sparsity, beyond enabling efficiency, acts as a regulator of variance propagation and thereby improves depth utilization. Our investigation covers two sources of sparsity: (i) implicit sparsity, which emerges from training and data conditions, including weight sparsity induced by weight decay and attention sparsity induced by long context inputs; and (ii) explicit sparsity, which is enforced by architectural design, including key/value-sharing sparsity in Grouped-Query Attention and expert-activation sparsity in Mixtureof-Experts. Our claim is thoroughly supported by controlled depth-scaling experiments and targeted layer effectiveness interventions. Across settings, we observe a consistent relationship: sparsity improves layer utilization by reducing output variance and promoting functional differentiation. We eventually distill our findings into a practical rule-of-thumb recipe for training deptheffective LLMs, yielding a notable 4.6% accuracy improvement on downstream tasks. Our results reveal sparsity, arising naturally from standard design choices, as a key yet previously overlooked mechanism for effective depth scaling in LLMs. Code is available at https://github.com/pUmpKin-Co/SparsityAndCoD.

Wanneer Verlicht Schaarste de Vloek van Diepte in LLM's?

When Does Sparsity Mitigate the Curse of Depth in LLMs

Samenvatting

Support