¿Cuándo Mitiga la Dispersión la Maldición de la Profundidad en los LLM?

Resumen

Trabajos recientes han demostrado la maldición de la profundidad en los modelos de lenguaje grandes (LLMs), donde las capas posteriores contribuyen menos al aprendizaje y la representación que las capas anteriores. Esta infrautilización está vinculada al crecimiento acumulado de la varianza en la Pre-Normalización de Capas, que puede empujar a los bloques profundos hacia un comportamiento casi idéntico. En este artículo, demostramos que la dispersión (esparcidad), más allá de permitir eficiencia, actúa como un regulador de la propagación de la varianza y, por lo tanto, mejora la utilización de la profundidad. Nuestra investigación cubre dos fuentes de dispersión: (i) la dispersión implícita, que surge de las condiciones de entrenamiento y de datos, incluyendo la dispersión de pesos inducida por la decadencia de pesos (weight decay) y la dispersión de atención inducida por entradas de contexto largo; y (ii) la dispersión explícita, que se aplica mediante el diseño arquitectónico, incluyendo la dispersión por compartición de claves/valores en la Atención de Consultas Agrupadas (Grouped-Query Attention) y la dispersión por activación de expertos en la Mezcla de Expertos (Mixture-of-Experts). Nuestra afirmación está respaldada exhaustivamente por experimentos controlados de escalado de profundidad e intervenciones específicas sobre la efectividad de las capas. En todos los escenarios, observamos una relación consistente: la dispersión mejora la utilización de las capas al reducir la varianza de la salida y promover la diferenciación funcional. Finalmente, destilamos nuestros hallazgos en una receta práctica basada en reglas generales para entrenar LLMs efectivos en profundidad, logrando una notable mejora del 4.6% en precisión en tareas secundarias (downstream tasks). Nuestros resultados revelan a la dispersión, que surge naturalmente de las opciones de diseño estándar, como un mecanismo clave pero previamente pasado por alto para el escalado efectivo de la profundidad en los LLMs. El código está disponible en https://github.com/pUmpKin-Co/SparsityAndCoD.

English

Recent work has demonstrated the curse of depth in large language models (LLMs), where later layers contribute less to learning and representation than earlier layers. Such under-utilization is linked to the accumulated growth of variance in Pre-Layer Normalization, which can push deep blocks toward near-identity behavior. In this paper, we demonstrate that, sparsity, beyond enabling efficiency, acts as a regulator of variance propagation and thereby improves depth utilization. Our investigation covers two sources of sparsity: (i) implicit sparsity, which emerges from training and data conditions, including weight sparsity induced by weight decay and attention sparsity induced by long context inputs; and (ii) explicit sparsity, which is enforced by architectural design, including key/value-sharing sparsity in Grouped-Query Attention and expert-activation sparsity in Mixtureof-Experts. Our claim is thoroughly supported by controlled depth-scaling experiments and targeted layer effectiveness interventions. Across settings, we observe a consistent relationship: sparsity improves layer utilization by reducing output variance and promoting functional differentiation. We eventually distill our findings into a practical rule-of-thumb recipe for training deptheffective LLMs, yielding a notable 4.6% accuracy improvement on downstream tasks. Our results reveal sparsity, arising naturally from standard design choices, as a key yet previously overlooked mechanism for effective depth scaling in LLMs. Code is available at https://github.com/pUmpKin-Co/SparsityAndCoD.

¿Cuándo Mitiga la Dispersión la Maldición de la Profundidad en los LLM?

When Does Sparsity Mitigate the Curse of Depth in LLMs

Resumen

Support