LLM에서 희소성이 깊이의 저주를 완화하는 시기는 언제인가
When Does Sparsity Mitigate the Curse of Depth in LLMs
March 16, 2026
저자: Dilxat Muhtar, Xinyuan Song, Sebastian Pokutta, Max Zimmer, Nico Pelleriti, Thomas Hofmann, Shiwei Liu
cs.AI
초록
최근 연구에서는 대규모 언어 모델(LLM)의 심화에 따른 한계가 확인되었는데, 이는 후반 레이어들이 초반 레이어들에 비해 학습 및 표현에 기여하는 정도가 적다는 것을 의미합니다. 이러한 활용도 저하는 사전 레이어 정규화에서 분산이 누적되어 증가함에 따라 발생하며, 이로 인해 깊은 블록들이 거론 항등 함수에 가까운 동작을 보이게 됩니다. 본 논문에서는 희소성이 효율성 제공을 넘어 분산 전파를 조절하는 역할을 함으로써 레이어 활용도를 향상시킨다는 것을 입증합니다. 우리의 연구는 두 가지 희소성 원인을 다룹니다: (i) 가중치 감쇠에 의해 유도되는 가중치 희소성 및 장문맥 입력에 의해 유도되는 어텐션 희소성을 포함하여 훈련 및 데이터 조건에서 자연스럽게 발생하는 내재적 희소성; 그리고 (ii) Grouped-Query Attention의 키/값 공유 희소성 및 Mixture-of-Experts의 전문가 활성화 희소성을 포함하여 아키텍처 설계를 통해 강제되는 명시적 희소성. 우리의 주장은 엄격하게 통제된 심화 확장 실험과 특정 레이어 효과성 개입 실험을 통해 충분히 입증되었습니다. 다양한 설정에서 우리는 일관된 관계, 즉 희소성이 출력 분산을 줄이고 기능적 분화를 촉진함으로써 레이어 활용도를 향상시킨다는 것을 관찰했습니다. 우리는 궁극적으로 이러한 발견을 실제 적용 가능한 경험적 방법론으로 정제하여 다운스트림 작업에서 4.6%의 주목할 만한 정확도 향상을 달성했습니다. 우리의 결과는 표준 설계 선택에서 자연스럽게 발생하는 희소성이 LLM의 효과적인 심화 확장을 위한 중요하지만 이전에는 간과되었던 메커니즘임을 보여줍니다. 코드는 https://github.com/pUmpKin-Co/SparsityAndCoD에서 확인할 수 있습니다.
English
Recent work has demonstrated the curse of depth in large language models (LLMs), where later layers contribute less to learning and representation than earlier layers. Such under-utilization is linked to the accumulated growth of variance in Pre-Layer Normalization, which can push deep blocks toward near-identity behavior. In this paper, we demonstrate that, sparsity, beyond enabling efficiency, acts as a regulator of variance propagation and thereby improves depth utilization. Our investigation covers two sources of sparsity: (i) implicit sparsity, which emerges from training and data conditions, including weight sparsity induced by weight decay and attention sparsity induced by long context inputs; and (ii) explicit sparsity, which is enforced by architectural design, including key/value-sharing sparsity in Grouped-Query Attention and expert-activation sparsity in Mixtureof-Experts. Our claim is thoroughly supported by controlled depth-scaling experiments and targeted layer effectiveness interventions. Across settings, we observe a consistent relationship: sparsity improves layer utilization by reducing output variance and promoting functional differentiation. We eventually distill our findings into a practical rule-of-thumb recipe for training deptheffective LLMs, yielding a notable 4.6% accuracy improvement on downstream tasks. Our results reveal sparsity, arising naturally from standard design choices, as a key yet previously overlooked mechanism for effective depth scaling in LLMs. Code is available at https://github.com/pUmpKin-Co/SparsityAndCoD.