ChatPaper.aiChatPaper

О пределах обрезки слоев для генеративных рассуждений в больших языковых моделях

On the Limits of Layer Pruning for Generative Reasoning in LLMs

February 2, 2026
Авторы: Safal Shrestha, Anubhav Shrestha, Aadim Nepal, Minwu Kim, Keith Ross
cs.AI

Аннотация

Недавние исследования показали, что послойное прунинг (сокращение) позволяет сжимать большие языковые модели (LLM), сохраняя при этом высокую производительность на классификационных бенчмарках при минимальной или нулевой дообучении. Однако существующие методы прунинга часто демонстрируют значительную деградацию на задачах генеративного рассуждения. В ходе систематического исследования различных семейств моделей мы выявили, что задачи, требующие многошагового логического вывода, особенно чувствительны к сокращению глубины. Помимо поверхностной деградации текста, мы наблюдаем ухудшение ключевых алгоритмических способностей, включая арифметические вычисления для математических рассуждений и генерацию сбалансированных скобок для синтеза кода. В условиях реалистичных ограничений пост-тренировочного периода, без доступа к данным или вычислительным ресурсам масштаба предварительного обучения, мы оцениваем простую стратегию смягчения последствий, основанную на контролируемом дообучении с использованием самостоятельно сгенерированных ответов (Self-Generated Responses). Данный подход обеспечивает значительное восстановление производительности на классификационных задачах, сохраняя до 90% производительности базового уровня, и дает существенный прирост до 20–30 процентных пунктов на генеративных бенчмарках по сравнению с предыдущими методами пост-прунинга. Ключевой вывод заключается в том, что, несмотря на эти улучшения, восстановление генеративных рассуждений остается принципиально ограниченным по сравнению с классификационными задачами и в основном осуществимо при низких коэффициентах прунинга. В целом, мы определяем практические пределы послойного прунинга для генеративного рассуждения и даем рекомендации по эффективному применению сокращения глубины в условиях ограниченных пост-тренировочных ресурсов.
English
Recent works have shown that layer pruning can compress large language models (LLMs) while retaining strong performance on classification benchmarks with little or no finetuning. However, existing pruning techniques often suffer severe degradation on generative reasoning tasks. Through a systematic study across multiple model families, we find that tasks requiring multi-step reasoning are particularly sensitive to depth reduction. Beyond surface-level text degeneration, we observe degradation of critical algorithmic capabilities, including arithmetic computation for mathematical reasoning and balanced parenthesis generation for code synthesis. Under realistic post-training constraints, without access to pretraining-scale data or compute, we evaluate a simple mitigation strategy based on supervised finetuning with Self-Generated Responses. This approach achieves strong recovery on classification tasks, retaining up to 90\% of baseline performance, and yields substantial gains of up to 20--30 percentage points on generative benchmarks compared to prior post-pruning techniques. Crucially, despite these gains, recovery for generative reasoning remains fundamentally limited relative to classification tasks and is viable primarily at lower pruning ratios. Overall, we characterize the practical limits of layer pruning for generative reasoning and provide guidance on when depth reduction can be applied effectively under constrained post-training regimes.
PDF21February 4, 2026