LAPO: Оптимизация политики с адаптацией к длине для повышения эффективности рассуждений

Аннотация

Крупные модели рассуждений достигли впечатляющих результатов благодаря расширенным цепочкам мыслей, однако такая вычислительная свобода приводит к избыточному генерации токенов даже для простых задач. Мы представляем Length-Adaptive Policy Optimization (LAPO) — новый фреймворк, который превращает управление длиной рассуждений из внешнего ограничения во внутреннюю способность модели. В отличие от существующих подходов, которые накладывают жесткие ограничения или полагаются на постобработку, LAPO позволяет моделям усвоить понимание подходящей глубины рассуждений через двухэтапный процесс обучения с подкреплением. На первом этапе модели изучают естественные паттерны рассуждений, обнаруживая статистическое распределение длин успешных решений. На втором этапе эти паттерны используются как метакогнитивное руководство, встраиваясь непосредственно в контекст рассуждений модели для обеспечения гибкости на этапе вывода. Эксперименты на бенчмарках математических рассуждений показывают, что LAPO сокращает использование токенов до 40,9%, одновременно повышая точность на 2,3%. Наш анализ показывает, что модели, обученные с помощью LAPO, развивают способность распределять вычислительные ресурсы в зависимости от сложности задачи, достигая эффективных рассуждений без ущерба для качества.

English

Large reasoning models have achieved remarkable performance through extended chain-of-thought sequences, yet this computational freedom leads to excessive token generation even for simple problems. We present Length-Adaptive Policy Optimization (LAPO), a novel framework that transforms reasoning length control from an external constraint into an intrinsic model capability. Unlike existing approaches that impose rigid limits or rely on post-hoc interventions, LAPO enables models to internalize an understanding of appropriate reasoning depth through a two-stage reinforcement learning process. In the first stage, models learn natural reasoning patterns by discovering the statistical distribution of successful solution lengths. The second stage leverages these patterns as meta-cognitive guidance, embedding them directly within the model's reasoning context to ensure inference-time flexibility. Experiments on mathematical reasoning benchmarks demonstrate that LAPO reduces token usage by up to 40.9\% while improving accuracy by 2.3\%. Our analysis reveals that models trained with LAPO develop emergent abilities to allocate computational resources based on problem complexity, achieving efficient reasoning without sacrificing quality.

LAPO: Оптимизация политики с адаптацией к длине для повышения эффективности рассуждений

LAPO: Internalizing Reasoning Efficiency via Length-Adaptive Policy Optimization

Аннотация

Support