Quando a Esparsidade Mitiga a Maldição da Profundidade em LLMs

Resumo

Trabalhos recentes demonstraram a maldição da profundidade em modelos de linguagem grandes (LLMs), onde as camadas posteriores contribuem menos para a aprendizagem e representação do que as camadas iniciais. Tal subutilização está ligada ao crescimento acumulado da variância na Pré-Normalização de Camada, que pode empurrar blocos profundos para um comportamento quase identitário. Neste artigo, demonstramos que a esparsidade, para além de permitir eficiência, atua como um regulador da propagação de variância e, assim, melhora a utilização da profundidade. A nossa investigação abrange duas fontes de esparsidade: (i) esparsidade implícita, que emerge de condições de treino e de dados, incluindo a esparsidade de pesos induzida pela decadência de pesos e a esparsidade de atenção induzida por entradas de contexto longo; e (ii) esparsidade explícita, que é imposta pelo design arquitetural, incluindo a esparsidade de partilha de chave/valor na Atenção de Consulta Agrupada e a esparsidade de ativação de especialistas em Mistura de Especialistas. A nossa afirmação é amplamente suportada por experiências controladas de escalonamento de profundidade e intervenções direcionadas na eficácia das camadas. Em várias configurações, observamos uma relação consistente: a esparsidade melhora a utilização das camadas ao reduzir a variância da saída e promover a diferenciação funcional. Acabamos por destilar as nossas descobertas numa regra prática para treinar LLMs eficazes em profundidade, obtendo uma notável melhoria de 4,6% na precisão em tarefas subsequentes. Os nossos resultados revelam a esparsidade, que surge naturalmente de escolhas de design padrão, como um mecanismo chave, mas anteriormente negligenciado, para o escalonamento eficaz da profundidade em LLMs. O código está disponível em https://github.com/pUmpKin-Co/SparsityAndCoD.

English

Recent work has demonstrated the curse of depth in large language models (LLMs), where later layers contribute less to learning and representation than earlier layers. Such under-utilization is linked to the accumulated growth of variance in Pre-Layer Normalization, which can push deep blocks toward near-identity behavior. In this paper, we demonstrate that, sparsity, beyond enabling efficiency, acts as a regulator of variance propagation and thereby improves depth utilization. Our investigation covers two sources of sparsity: (i) implicit sparsity, which emerges from training and data conditions, including weight sparsity induced by weight decay and attention sparsity induced by long context inputs; and (ii) explicit sparsity, which is enforced by architectural design, including key/value-sharing sparsity in Grouped-Query Attention and expert-activation sparsity in Mixtureof-Experts. Our claim is thoroughly supported by controlled depth-scaling experiments and targeted layer effectiveness interventions. Across settings, we observe a consistent relationship: sparsity improves layer utilization by reducing output variance and promoting functional differentiation. We eventually distill our findings into a practical rule-of-thumb recipe for training deptheffective LLMs, yielding a notable 4.6% accuracy improvement on downstream tasks. Our results reveal sparsity, arising naturally from standard design choices, as a key yet previously overlooked mechanism for effective depth scaling in LLMs. Code is available at https://github.com/pUmpKin-Co/SparsityAndCoD.

Quando a Esparsidade Mitiga a Maldição da Profundidade em LLMs

When Does Sparsity Mitigate the Curse of Depth in LLMs

Resumo

Support