LLM의 생성적 추론에서 레이어 프루닝의 한계에 관하여
On the Limits of Layer Pruning for Generative Reasoning in LLMs
February 2, 2026
저자: Safal Shrestha, Anubhav Shrestha, Aadim Nepal, Minwu Kim, Keith Ross
cs.AI
초록
최근 연구에 따르면 레이어 프루닝(layer pruning)을 통해 대규모 언어 모델(LLM)을 압축하면서도 미세 조정을 거의 또는 전혀 수행하지 않고도 분류 벤치마크에서 강력한 성능을 유지할 수 있음이 입증되었습니다. 그러나 기존 프루닝 기술은 생성형 추론 작업에서 심각한 성능 저하를 겪는 경우가 많습니다. 여러 모델 패밀리를 대상으로 한 체계적인 연구를 통해, 다단계 추론이 필요한 작업이 특히 깊이 감소에 민감함을 발견했습니다. 표면적인 텍스트 변질을 넘어서, 수학적 추론을 위한 산술 연산 및 코드 합성을 위한 균형 잡힌 괄호 생성과 같은 중요한 알고리즘 능력의 저하가 관찰됩니다. 사전 학습 규모의 데이터나 컴퓨팅 자원에 접근할 수 없는 현실적인 사후 학습 제약 조건 하에서, 우리는 자기 생성 응답을 활용한 지도 미세 조정 기반의 단순한 완화 전략을 평가합니다. 이 접근법은 분류 작업에서 기준 성능의 최대 90%를 유지하며 강력한 회복력을 달성하고, 기존 사후 프루닝 기술 대비 생성 벤치마크에서 최대 20-30% 포인트의 상당한 성능 향상을 가져옵니다. 결정적으로, 이러한 향상에도 불구하고 생성형 추론의 회복은 분류 작업에 비해 근본적으로 제한적이며 주로 낮은 프루닝 비율에서만 실현 가능합니다. 전반적으로, 우리는 생성형 추론을 위한 레이어 프루닝의 실용적 한계를 규명하고, 제한된 사후 학습 환경에서 깊이 감소를 효과적으로 적용할 수 있는 조건에 대한 지침을 제시합니다.
English
Recent works have shown that layer pruning can compress large language models (LLMs) while retaining strong performance on classification benchmarks with little or no finetuning. However, existing pruning techniques often suffer severe degradation on generative reasoning tasks. Through a systematic study across multiple model families, we find that tasks requiring multi-step reasoning are particularly sensitive to depth reduction. Beyond surface-level text degeneration, we observe degradation of critical algorithmic capabilities, including arithmetic computation for mathematical reasoning and balanced parenthesis generation for code synthesis. Under realistic post-training constraints, without access to pretraining-scale data or compute, we evaluate a simple mitigation strategy based on supervised finetuning with Self-Generated Responses. This approach achieves strong recovery on classification tasks, retaining up to 90\% of baseline performance, and yields substantial gains of up to 20--30 percentage points on generative benchmarks compared to prior post-pruning techniques. Crucially, despite these gains, recovery for generative reasoning remains fundamentally limited relative to classification tasks and is viable primarily at lower pruning ratios. Overall, we characterize the practical limits of layer pruning for generative reasoning and provide guidance on when depth reduction can be applied effectively under constrained post-training regimes.