LAPO : Internalisation de l'efficacité du raisonnement via l'optimisation de politique adaptative à la longueur
LAPO: Internalizing Reasoning Efficiency via Length-Adaptive Policy Optimization
July 21, 2025
papers.authors: Xingyu Wu, Yuchen Yan, Shangke Lyu, Linjuan Wu, Yiwen Qiu, Yongliang Shen, Weiming Lu, Jian Shao, Jun Xiao, Yueting Zhuang
cs.AI
papers.abstract
Les grands modèles de raisonnement ont atteint des performances remarquables grâce à des séquences étendues de pensée en chaîne, mais cette liberté computationnelle entraîne une génération excessive de tokens, même pour des problèmes simples. Nous présentons l'Optimisation de Politique à Longueur Adaptative (LAPO), un cadre novateur qui transforme le contrôle de la longueur du raisonnement d'une contrainte externe en une capacité intrinsèque du modèle. Contrairement aux approches existantes qui imposent des limites rigides ou reposent sur des interventions a posteriori, LAPO permet aux modèles d'intérioriser une compréhension de la profondeur de raisonnement appropriée grâce à un processus d'apprentissage par renforcement en deux étapes. Dans la première étape, les modèles apprennent des schémas de raisonnement naturels en découvrant la distribution statistique des longueurs de solutions réussies. La deuxième étape exploite ces schémas comme guide méta-cognitif, les intégrant directement dans le contexte de raisonnement du modèle pour garantir une flexibilité lors de l'inférence. Les expériences sur des benchmarks de raisonnement mathématique démontrent que LAPO réduit l'utilisation de tokens jusqu'à 40,9 % tout en améliorant la précision de 2,3 %. Notre analyse révèle que les modèles entraînés avec LAPO développent des capacités émergentes à allouer les ressources computationnelles en fonction de la complexité du problème, atteignant ainsi un raisonnement efficace sans sacrifier la qualité.
English
Large reasoning models have achieved remarkable performance through extended
chain-of-thought sequences, yet this computational freedom leads to excessive
token generation even for simple problems. We present Length-Adaptive Policy
Optimization (LAPO), a novel framework that transforms reasoning length control
from an external constraint into an intrinsic model capability. Unlike existing
approaches that impose rigid limits or rely on post-hoc interventions, LAPO
enables models to internalize an understanding of appropriate reasoning depth
through a two-stage reinforcement learning process. In the first stage, models
learn natural reasoning patterns by discovering the statistical distribution of
successful solution lengths. The second stage leverages these patterns as
meta-cognitive guidance, embedding them directly within the model's reasoning
context to ensure inference-time flexibility. Experiments on mathematical
reasoning benchmarks demonstrate that LAPO reduces token usage by up to 40.9\%
while improving accuracy by 2.3\%. Our analysis reveals that models trained
with LAPO develop emergent abilities to allocate computational resources based
on problem complexity, achieving efficient reasoning without sacrificing
quality.