ChatPaper.aiChatPaper

大規模言語モデルにおける生成的推論に対する層刈り込みの限界

On the Limits of Layer Pruning for Generative Reasoning in LLMs

February 2, 2026
著者: Safal Shrestha, Anubhav Shrestha, Aadim Nepal, Minwu Kim, Keith Ross
cs.AI

要旨

近年の研究では、層プルーニングにより大規模言語モデル(LLM)を圧縮し、微調整をほとんどあるいは全く行わなくても分類ベンチマークで高い性能を維持できることが示されている。しかし、既存のプルーニング技術は、生成的推論タスクにおいて著しい性能劣化に悩まされることが多い。複数のモデルファミリーにわたる系統的な研究を通じて、多段階の推論を必要とするタスクが深さの削減に特に敏感であることを明らかにする。表面的なテキストの質の低下を超えて、数学的推論における算術計算やコード合成における括弧のバランス生成といった、重要なアルゴリズム的能力の劣化が観察される。事前学習規模のデータや計算資源にアクセスできない、現実的な学習後制約下において、自己生成応答を用いた教師あり微調整に基づく単純な軽減策を評価する。このアプローチは、分類タスクにおいてベースライン性能の最大90%を維持する強力な回復を達成し、従来のプルーニング後技術と比較して生成的ベンチマークで最大20~30パーセントポイントの大幅な改善をもたらす。決定的な点は、これらの改善にもかかわらず、生成的推論の回復は分類タスクに比べて根本的に限界があり、主に低いプルーニング比率でのみ有効であることである。全体として、生成的推論における層プルーニングの実用的限界を明らかにし、制約のある学習後環境において深さ削減を効果的に適用できる条件に関する指針を提供する。
English
Recent works have shown that layer pruning can compress large language models (LLMs) while retaining strong performance on classification benchmarks with little or no finetuning. However, existing pruning techniques often suffer severe degradation on generative reasoning tasks. Through a systematic study across multiple model families, we find that tasks requiring multi-step reasoning are particularly sensitive to depth reduction. Beyond surface-level text degeneration, we observe degradation of critical algorithmic capabilities, including arithmetic computation for mathematical reasoning and balanced parenthesis generation for code synthesis. Under realistic post-training constraints, without access to pretraining-scale data or compute, we evaluate a simple mitigation strategy based on supervised finetuning with Self-Generated Responses. This approach achieves strong recovery on classification tasks, retaining up to 90\% of baseline performance, and yields substantial gains of up to 20--30 percentage points on generative benchmarks compared to prior post-pruning techniques. Crucially, despite these gains, recovery for generative reasoning remains fundamentally limited relative to classification tasks and is viable primarily at lower pruning ratios. Overall, we characterize the practical limits of layer pruning for generative reasoning and provide guidance on when depth reduction can be applied effectively under constrained post-training regimes.
PDF21February 4, 2026