LAPO: Оптимизация политики с адаптацией к длине для повышения эффективности рассуждений
LAPO: Internalizing Reasoning Efficiency via Length-Adaptive Policy Optimization
July 21, 2025
Авторы: Xingyu Wu, Yuchen Yan, Shangke Lyu, Linjuan Wu, Yiwen Qiu, Yongliang Shen, Weiming Lu, Jian Shao, Jun Xiao, Yueting Zhuang
cs.AI
Аннотация
Крупные модели рассуждений достигли впечатляющих результатов благодаря расширенным цепочкам мыслей, однако такая вычислительная свобода приводит к избыточному генерации токенов даже для простых задач. Мы представляем Length-Adaptive Policy Optimization (LAPO) — новый фреймворк, который превращает управление длиной рассуждений из внешнего ограничения во внутреннюю способность модели. В отличие от существующих подходов, которые накладывают жесткие ограничения или полагаются на постобработку, LAPO позволяет моделям усвоить понимание подходящей глубины рассуждений через двухэтапный процесс обучения с подкреплением. На первом этапе модели изучают естественные паттерны рассуждений, обнаруживая статистическое распределение длин успешных решений. На втором этапе эти паттерны используются как метакогнитивное руководство, встраиваясь непосредственно в контекст рассуждений модели для обеспечения гибкости на этапе вывода. Эксперименты на бенчмарках математических рассуждений показывают, что LAPO сокращает использование токенов до 40,9%, одновременно повышая точность на 2,3%. Наш анализ показывает, что модели, обученные с помощью LAPO, развивают способность распределять вычислительные ресурсы в зависимости от сложности задачи, достигая эффективных рассуждений без ущерба для качества.
English
Large reasoning models have achieved remarkable performance through extended
chain-of-thought sequences, yet this computational freedom leads to excessive
token generation even for simple problems. We present Length-Adaptive Policy
Optimization (LAPO), a novel framework that transforms reasoning length control
from an external constraint into an intrinsic model capability. Unlike existing
approaches that impose rigid limits or rely on post-hoc interventions, LAPO
enables models to internalize an understanding of appropriate reasoning depth
through a two-stage reinforcement learning process. In the first stage, models
learn natural reasoning patterns by discovering the statistical distribution of
successful solution lengths. The second stage leverages these patterns as
meta-cognitive guidance, embedding them directly within the model's reasoning
context to ensure inference-time flexibility. Experiments on mathematical
reasoning benchmarks demonstrate that LAPO reduces token usage by up to 40.9\%
while improving accuracy by 2.3\%. Our analysis reveals that models trained
with LAPO develop emergent abilities to allocate computational resources based
on problem complexity, achieving efficient reasoning without sacrificing
quality.