ChatPaper.aiChatPaper

Über die Grenzen des Layer-Prunings für generatives Reasoning in LLMs

On the Limits of Layer Pruning for Generative Reasoning in LLMs

February 2, 2026
papers.authors: Safal Shrestha, Anubhav Shrestha, Aadim Nepal, Minwu Kim, Keith Ross
cs.AI

papers.abstract

Aktuelle Arbeiten haben gezeigt, dass Layer-Pruning große Sprachmodelle (LLMs) komprimieren kann, während eine hohe Leistung auf Klassifizierungs-Benchmarks mit wenig oder keinem Finetuning erhalten bleibt. Bestehende Pruning-Techniken leiden jedoch häufig unter erheblichen Einbußen bei generativen Reasoning-Aufgaben. Durch eine systematische Studie über mehrere Modellfamilien hinweg stellen wir fest, dass Aufgaben, die mehrstufiges Reasoning erfordern, besonders empfindlich auf Tiefenreduktion reagieren. Über oberflächliche Textdegeneration hinaus beobachten wir einen Abbau kritischer algorithmischer Fähigkeiten, einschließlich arithmetischer Berechnungen für mathematisches Reasoning und der Generierung ausgeglichener Klammern für Code-Synthese. Unter realistischen Post-Training-Beschränkungen, ohne Zugang zu Pretraining-Daten oder Rechenleistung in entsprechender Größenordnung, evaluieren wir eine einfache Gegenstrategie basierend auf supervised Finetuning mit selbstgenerierten Antworten (Self-Generated Responses). Dieser Ansatz erreicht eine starke Wiederherstellung der Leistung bei Klassifizierungsaufgaben, wobei bis zu 90 % der Baseline-Leistung erhalten bleiben, und erzielt substanzielle Gewinne von bis zu 20–30 Prozentpunkten auf generativen Benchmarks im Vergleich zu bisherigen Post-Pruning-Techniken. Entscheidend ist, dass trotz dieser Gewinne die Wiederherstellung bei generativem Reasoning im Vergleich zu Klassifizierungsaufgaben grundsätzlich begrenzt bleibt und hauptsächlich bei niedrigeren Pruning-Raten praktikabel ist. Insgesamt charakterisieren wir die praktischen Grenzen des Layer-Prunings für generatives Reasoning und geben Leitlinien, wann Tiefenreduktion unter eingeschränkten Post-Training-Bedingungen effektiv angewendet werden kann.
English
Recent works have shown that layer pruning can compress large language models (LLMs) while retaining strong performance on classification benchmarks with little or no finetuning. However, existing pruning techniques often suffer severe degradation on generative reasoning tasks. Through a systematic study across multiple model families, we find that tasks requiring multi-step reasoning are particularly sensitive to depth reduction. Beyond surface-level text degeneration, we observe degradation of critical algorithmic capabilities, including arithmetic computation for mathematical reasoning and balanced parenthesis generation for code synthesis. Under realistic post-training constraints, without access to pretraining-scale data or compute, we evaluate a simple mitigation strategy based on supervised finetuning with Self-Generated Responses. This approach achieves strong recovery on classification tasks, retaining up to 90\% of baseline performance, and yields substantial gains of up to 20--30 percentage points on generative benchmarks compared to prior post-pruning techniques. Crucially, despite these gains, recovery for generative reasoning remains fundamentally limited relative to classification tasks and is viable primarily at lower pruning ratios. Overall, we characterize the practical limits of layer pruning for generative reasoning and provide guidance on when depth reduction can be applied effectively under constrained post-training regimes.
PDF21February 4, 2026