LAPO: Internalización de la eficiencia en el razonamiento mediante la optimización de políticas adaptativas a la longitud
LAPO: Internalizing Reasoning Efficiency via Length-Adaptive Policy Optimization
July 21, 2025
Autores: Xingyu Wu, Yuchen Yan, Shangke Lyu, Linjuan Wu, Yiwen Qiu, Yongliang Shen, Weiming Lu, Jian Shao, Jun Xiao, Yueting Zhuang
cs.AI
Resumen
Los modelos de razonamiento a gran escala han logrado un rendimiento notable mediante secuencias extensas de pensamiento encadenado, sin embargo, esta libertad computacional conduce a una generación excesiva de tokens incluso para problemas simples. Presentamos la Optimización de Políticas de Longitud Adaptativa (LAPO, por sus siglas en inglés), un marco novedoso que transforma el control de la longitud del razonamiento de una restricción externa en una capacidad intrínseca del modelo. A diferencia de los enfoques existentes que imponen límites rígidos o dependen de intervenciones posteriores, LAPO permite que los modelos internalicen una comprensión de la profundidad adecuada del razonamiento a través de un proceso de aprendizaje por refuerzo en dos etapas. En la primera etapa, los modelos aprenden patrones naturales de razonamiento al descubrir la distribución estadística de las longitudes exitosas de las soluciones. La segunda etapa aprovecha estos patrones como guía metacognitiva, integrándolos directamente en el contexto de razonamiento del modelo para garantizar flexibilidad durante la inferencia. Los experimentos en benchmarks de razonamiento matemático demuestran que LAPO reduce el uso de tokens hasta en un 40,9\% mientras mejora la precisión en un 2,3\%. Nuestro análisis revela que los modelos entrenados con LAPO desarrollan habilidades emergentes para asignar recursos computacionales según la complejidad del problema, logrando un razonamiento eficiente sin sacrificar la calidad.
English
Large reasoning models have achieved remarkable performance through extended
chain-of-thought sequences, yet this computational freedom leads to excessive
token generation even for simple problems. We present Length-Adaptive Policy
Optimization (LAPO), a novel framework that transforms reasoning length control
from an external constraint into an intrinsic model capability. Unlike existing
approaches that impose rigid limits or rely on post-hoc interventions, LAPO
enables models to internalize an understanding of appropriate reasoning depth
through a two-stage reinforcement learning process. In the first stage, models
learn natural reasoning patterns by discovering the statistical distribution of
successful solution lengths. The second stage leverages these patterns as
meta-cognitive guidance, embedding them directly within the model's reasoning
context to ensure inference-time flexibility. Experiments on mathematical
reasoning benchmarks demonstrate that LAPO reduces token usage by up to 40.9\%
while improving accuracy by 2.3\%. Our analysis reveals that models trained
with LAPO develop emergent abilities to allocate computational resources based
on problem complexity, achieving efficient reasoning without sacrificing
quality.