LAPO: Internaliseren van redeneerefficiëntie via lengte-adaptieve beleidsoptimalisatie
LAPO: Internalizing Reasoning Efficiency via Length-Adaptive Policy Optimization
July 21, 2025
Auteurs: Xingyu Wu, Yuchen Yan, Shangke Lyu, Linjuan Wu, Yiwen Qiu, Yongliang Shen, Weiming Lu, Jian Shao, Jun Xiao, Yueting Zhuang
cs.AI
Samenvatting
Grote redeneermodellen hebben opmerkelijke prestaties bereikt door uitgebreide ketens van gedachten, maar deze computationele vrijheid leidt tot overmatige token-generatie, zelfs voor eenvoudige problemen. Wij presenteren Length-Adaptive Policy Optimization (LAPO), een nieuw raamwerk dat de controle over de redeneerlengte transformeert van een externe beperking naar een intrinsieke modelcapaciteit. In tegenstelling tot bestaande benaderingen die rigide limieten opleggen of vertrouwen op post-hoc interventies, stelt LAPO modellen in staat om een begrip van de juiste redeneerdiepte te internaliseren via een tweestaps reinforcement learning-proces. In de eerste fase leren modellen natuurlijke redeneerpatronen door de statistische verdeling van succesvolle oplossingslengtes te ontdekken. De tweede fase benut deze patronen als metacognitieve begeleiding, waarbij ze direct worden ingebed in de redeneercontext van het model om flexibiliteit tijdens inferentie te garanderen. Experimenten op wiskundige redeneerbenchmarks tonen aan dat LAPO het tokengebruik met tot wel 40,9\% vermindert, terwijl de nauwkeurigheid met 2,3\% verbetert. Onze analyse laat zien dat modellen die met LAPO zijn getraind, emergent vermogen ontwikkelen om computationele middelen toe te wijzen op basis van probleemcomplexiteit, waardoor efficiënt redeneren wordt bereikt zonder kwaliteit op te offeren.
English
Large reasoning models have achieved remarkable performance through extended
chain-of-thought sequences, yet this computational freedom leads to excessive
token generation even for simple problems. We present Length-Adaptive Policy
Optimization (LAPO), a novel framework that transforms reasoning length control
from an external constraint into an intrinsic model capability. Unlike existing
approaches that impose rigid limits or rely on post-hoc interventions, LAPO
enables models to internalize an understanding of appropriate reasoning depth
through a two-stage reinforcement learning process. In the first stage, models
learn natural reasoning patterns by discovering the statistical distribution of
successful solution lengths. The second stage leverages these patterns as
meta-cognitive guidance, embedding them directly within the model's reasoning
context to ensure inference-time flexibility. Experiments on mathematical
reasoning benchmarks demonstrate that LAPO reduces token usage by up to 40.9\%
while improving accuracy by 2.3\%. Our analysis reveals that models trained
with LAPO develop emergent abilities to allocate computational resources based
on problem complexity, achieving efficient reasoning without sacrificing
quality.