Когда разреженность смягчает проклятие глубины в больших языковых моделях

Аннотация

Недавние исследования выявили феномен «проклятия глубины» в больших языковых моделях (LLM), при котором более поздние слои вносят меньший вклад в обучение и репрезентацию по сравнению с ранними. Такое неполное использование связано с накопленным ростом дисперсии в Pre-Layer Normalization, что может приводить глубокие блоки к поведению, близкому к тождественному. В данной работе мы показываем, что разреженность (sparsity), помимо повышения эффективности, выступает в роли регулятора распространения дисперсии и тем самым улучшает использование глубины модели. Наше исследование охватывает два источника разреженности: (i) неявную разреженность, возникающую из условий обучения и данных, включая разреженность весов, индуцированную вес-decay, и разреженность внимания, вызванную длинными контекстными входами; и (ii) явную разреженность, обеспечиваемую архитектурными решениями, включая разреженность за счет общего использования ключей/значений в Grouped-Query Attention и разреженность активации экспертов в Mixture-of-Experts. Наше утверждение всесторонне подтверждается контролируемыми экспериментами по масштабированию глубины и целевыми вмешательствами в эффективность слоев. Во всех сценариях мы наблюдаем устойчивую закономерность: разреженность улучшает использование слоев за счет снижения выходной дисперсии и стимулирования функциональной дифференциации. В конечном счете, мы обобщаем наши выводы в виде практического эмпирического рецепта для обучения эффективных по глубине LLM, что позволило добиться значительного улучшения точности на 4,6% в downstream-задачах. Наши результаты раскрывают разреженность, естественным образом возникающую из стандартных проектных решений, как ключевой, но ранее упускавшийся из виду механизм эффективного масштабирования глубины в LLM. Код доступен по адресу https://github.com/pUmpKin-Co/SparsityAndCoD.

English

Recent work has demonstrated the curse of depth in large language models (LLMs), where later layers contribute less to learning and representation than earlier layers. Such under-utilization is linked to the accumulated growth of variance in Pre-Layer Normalization, which can push deep blocks toward near-identity behavior. In this paper, we demonstrate that, sparsity, beyond enabling efficiency, acts as a regulator of variance propagation and thereby improves depth utilization. Our investigation covers two sources of sparsity: (i) implicit sparsity, which emerges from training and data conditions, including weight sparsity induced by weight decay and attention sparsity induced by long context inputs; and (ii) explicit sparsity, which is enforced by architectural design, including key/value-sharing sparsity in Grouped-Query Attention and expert-activation sparsity in Mixtureof-Experts. Our claim is thoroughly supported by controlled depth-scaling experiments and targeted layer effectiveness interventions. Across settings, we observe a consistent relationship: sparsity improves layer utilization by reducing output variance and promoting functional differentiation. We eventually distill our findings into a practical rule-of-thumb recipe for training deptheffective LLMs, yielding a notable 4.6% accuracy improvement on downstream tasks. Our results reveal sparsity, arising naturally from standard design choices, as a key yet previously overlooked mechanism for effective depth scaling in LLMs. Code is available at https://github.com/pUmpKin-Co/SparsityAndCoD.

Когда разреженность смягчает проклятие глубины в больших языковых моделях

When Does Sparsity Mitigate the Curse of Depth in LLMs

Аннотация

Support