ChatPaper.aiChatPaper

Sur les limites de l'élagage de couches pour le raisonnement génératif dans les LLM

On the Limits of Layer Pruning for Generative Reasoning in LLMs

February 2, 2026
papers.authors: Safal Shrestha, Anubhav Shrestha, Aadim Nepal, Minwu Kim, Keith Ross
cs.AI

papers.abstract

Des travaux récents ont montré que l'élagage de couches peut comprimer les grands modèles de langage (LLM) tout en conservant de bonnes performances sur des benchmarks de classification avec peu ou pas de réglage fin. Cependant, les techniques d'élagage existantes subissent souvent une dégradation sévère sur les tâches de raisonnement génératif. Par une étude systématique sur plusieurs familles de modèles, nous constatons que les tâches nécessitant un raisonnement en plusieurs étapes sont particulièrement sensibles à la réduction de profondeur. Au-delà d'une dégénérescence superficielle du texte, nous observons une dégradation des capacités algorithmiques critiques, incluant le calcul arithmétique pour le raisonnement mathématique et la génération de parenthèses équilibrées pour la synthèse de code. Dans des contraintes réalistes de post-formation, sans accès à des données ou une puissance de calcul à l'échelle du pré-entraînement, nous évaluons une stratégie d'atténuation simple basée sur un réglage fin supervisé avec des Réponses Auto-Générées. Cette approche permet une récupération robuste sur les tâches de classification, conservant jusqu'à 90 % des performances de référence, et procure des gains substantiels allant jusqu'à 20-30 points de pourcentage sur les benchmarks génératifs par rapport aux techniques post-élagage antérieures. Fait crucial, malgré ces gains, la récupération pour le raisonnement génératif reste fondamentalement limitée par rapport aux tâches de classification et n'est viable principalement qu'à des taux d'élagage faibles. Globalement, nous caractérisons les limites pratiques de l'élagage de couches pour le raisonnement génératif et fournissons des conseils sur les conditions où la réduction de profondeur peut être appliquée efficacement sous des régimes de post-formation contraints.
English
Recent works have shown that layer pruning can compress large language models (LLMs) while retaining strong performance on classification benchmarks with little or no finetuning. However, existing pruning techniques often suffer severe degradation on generative reasoning tasks. Through a systematic study across multiple model families, we find that tasks requiring multi-step reasoning are particularly sensitive to depth reduction. Beyond surface-level text degeneration, we observe degradation of critical algorithmic capabilities, including arithmetic computation for mathematical reasoning and balanced parenthesis generation for code synthesis. Under realistic post-training constraints, without access to pretraining-scale data or compute, we evaluate a simple mitigation strategy based on supervised finetuning with Self-Generated Responses. This approach achieves strong recovery on classification tasks, retaining up to 90\% of baseline performance, and yields substantial gains of up to 20--30 percentage points on generative benchmarks compared to prior post-pruning techniques. Crucially, despite these gains, recovery for generative reasoning remains fundamentally limited relative to classification tasks and is viable primarily at lower pruning ratios. Overall, we characterize the practical limits of layer pruning for generative reasoning and provide guidance on when depth reduction can be applied effectively under constrained post-training regimes.
PDF21February 4, 2026