À quand la parcimonie atténue-t-elle la malédiction de la profondeur dans les grands modèles de langage ?

Résumé

Des travaux récents ont mis en évidence le phénomène de malédiction de la profondeur dans les grands modèles de langage (LLM), où les couches tardives contribuent moins à l'apprentissage et à la représentation que les couches initiales. Cette sous-utilisation est liée à l'accumulation de variance dans la Prédicteur-Normalisation de Couche, qui peut conduire les blocs profonds vers un comportement quasi identique. Dans cet article, nous démontrons que la parcimonie, au-delà de permettre l'efficacité, agit comme un régulateur de la propagation de la variance et améliore ainsi l'utilisation de la profondeur. Notre étude couvre deux sources de parcimonie : (i) la parcimonie implicite, qui émerge des conditions d'entraînement et des données, incluant la parcimonie des poids induite par la décroissance de poids et la parcimonie de l'attention induite par des contextes longs en entrée ; et (ii) la parcimonie explicite, qui est imposée par la conception architecturale, incluant la parcimonie de partage clé/valeur dans l'Attention à Requêtes Groupées et la parcimonie d'activation des experts dans les Modèles de Mélange d'Experts. Notre affirmation est solidement étayée par des expériences contrôlées de mise à l'échelle en profondeur et des interventions ciblées sur l'efficacité des couches. Dans tous les contextes, nous observons une relation constante : la parcimonie améliore l'utilisation des couches en réduisant la variance en sortie et en favorisant la différenciation fonctionnelle. Nous condensons finalement nos résultats en une règle empirique pratique pour entraîner des LLM efficaces en profondeur, permettant une amélioration notable de 4,6 % de la précision sur les tâches en aval. Nos résultats révèlent la parcimonie, émergeant naturellement des choix de conception standard, comme un mécanisme clé mais jusqu'alors négligé pour une mise à l'échelle efficace de la profondeur dans les LLM. Le code est disponible à l'adresse https://github.com/pUmpKin-Co/SparsityAndCoD.

English

Recent work has demonstrated the curse of depth in large language models (LLMs), where later layers contribute less to learning and representation than earlier layers. Such under-utilization is linked to the accumulated growth of variance in Pre-Layer Normalization, which can push deep blocks toward near-identity behavior. In this paper, we demonstrate that, sparsity, beyond enabling efficiency, acts as a regulator of variance propagation and thereby improves depth utilization. Our investigation covers two sources of sparsity: (i) implicit sparsity, which emerges from training and data conditions, including weight sparsity induced by weight decay and attention sparsity induced by long context inputs; and (ii) explicit sparsity, which is enforced by architectural design, including key/value-sharing sparsity in Grouped-Query Attention and expert-activation sparsity in Mixtureof-Experts. Our claim is thoroughly supported by controlled depth-scaling experiments and targeted layer effectiveness interventions. Across settings, we observe a consistent relationship: sparsity improves layer utilization by reducing output variance and promoting functional differentiation. We eventually distill our findings into a practical rule-of-thumb recipe for training deptheffective LLMs, yielding a notable 4.6% accuracy improvement on downstream tasks. Our results reveal sparsity, arising naturally from standard design choices, as a key yet previously overlooked mechanism for effective depth scaling in LLMs. Code is available at https://github.com/pUmpKin-Co/SparsityAndCoD.

À quand la parcimonie atténue-t-elle la malédiction de la profondeur dans les grands modèles de langage ?

When Does Sparsity Mitigate the Curse of Depth in LLMs

Résumé

Support