Quando la sparsità mitiga la maledizione della profondità nei LLM

Abstract

Recenti studi hanno dimostrato la maledizione della profondità nei grandi modelli linguistici (LLM), dove gli strati successivi contribuiscono meno all'apprendimento e alla rappresentazione rispetto agli strati iniziali. Questo sottoutilizzo è collegato alla crescita accumulata della varianza nella Pre-Layer Normalization, che può spingere i blocchi profondi verso un comportamento quasi identità. In questo articolo, dimostriamo che la sparsità, oltre a consentire efficienza, agisce come regolatore della propagazione della varianza e migliora così l'utilizzo della profondità. La nostra indagine copre due fonti di sparsità: (i) la sparsità implicita, che emerge dalle condizioni di addestramento e dai dati, inclusa la sparsità dei pesi indotta dal decadimento dei pesi e la sparsità dell'attenzione indotta da input di contesto lunghi; e (ii) la sparsità esplicita, imposta dal design architetturale, inclusa la sparsità della condivisione chiave/valore nell'Attention a Query Raggruppate e la sparsità dell'attivazione degli esperti nei Misture di Esperti. La nostra affermazione è pienamente supportata da esperimenti controllati di scalatura della profondità e da interventi mirati sull'efficacia degli strati. In tutte le configurazioni, osserviamo una relazione coerente: la sparsità migliora l'utilizzo degli strati riducendo la varianza in output e promuovendo la differenziazione funzionale. Alla fine, condensiamo i nostri risultati in una regola pratica per addestrare LLM efficaci in profondità, ottenendo un notevole miglioramento della precisione del 4,6% su task downstream. I nostri risultati rivelano la sparsità, che sorge naturalmente dalle scelte progettuali standard, come un meccanismo chiave ma precedentemente trascurato per una scalatura efficace della profondità negli LLM. Il codice è disponibile all'indirizzo https://github.com/pUmpKin-Co/SparsityAndCoD.

English

Recent work has demonstrated the curse of depth in large language models (LLMs), where later layers contribute less to learning and representation than earlier layers. Such under-utilization is linked to the accumulated growth of variance in Pre-Layer Normalization, which can push deep blocks toward near-identity behavior. In this paper, we demonstrate that, sparsity, beyond enabling efficiency, acts as a regulator of variance propagation and thereby improves depth utilization. Our investigation covers two sources of sparsity: (i) implicit sparsity, which emerges from training and data conditions, including weight sparsity induced by weight decay and attention sparsity induced by long context inputs; and (ii) explicit sparsity, which is enforced by architectural design, including key/value-sharing sparsity in Grouped-Query Attention and expert-activation sparsity in Mixtureof-Experts. Our claim is thoroughly supported by controlled depth-scaling experiments and targeted layer effectiveness interventions. Across settings, we observe a consistent relationship: sparsity improves layer utilization by reducing output variance and promoting functional differentiation. We eventually distill our findings into a practical rule-of-thumb recipe for training deptheffective LLMs, yielding a notable 4.6% accuracy improvement on downstream tasks. Our results reveal sparsity, arising naturally from standard design choices, as a key yet previously overlooked mechanism for effective depth scaling in LLMs. Code is available at https://github.com/pUmpKin-Co/SparsityAndCoD.

Quando la sparsità mitiga la maledizione della profondità nei LLM

When Does Sparsity Mitigate the Curse of Depth in LLMs

Abstract

Support