LAPO: Internalizzazione dell'Efficienza del Ragionamento tramite Ottimizzazione delle Politiche Adattive alla Lunghezza
LAPO: Internalizing Reasoning Efficiency via Length-Adaptive Policy Optimization
July 21, 2025
Autori: Xingyu Wu, Yuchen Yan, Shangke Lyu, Linjuan Wu, Yiwen Qiu, Yongliang Shen, Weiming Lu, Jian Shao, Jun Xiao, Yueting Zhuang
cs.AI
Abstract
I grandi modelli di ragionamento hanno ottenuto prestazioni notevoli attraverso sequenze estese di pensiero a catena, tuttavia questa libertà computazionale porta a una generazione eccessiva di token anche per problemi semplici. Presentiamo Length-Adaptive Policy Optimization (LAPO), un nuovo framework che trasforma il controllo della lunghezza del ragionamento da un vincolo esterno a una capacità intrinseca del modello. A differenza degli approcci esistenti che impongono limiti rigidi o si affidano a interventi post-hoc, LAPO consente ai modelli di interiorizzare una comprensione della profondità di ragionamento appropriata attraverso un processo di apprendimento per rinforzo in due fasi. Nella prima fase, i modelli apprendono schemi di ragionamento naturali scoprendo la distribuzione statistica delle lunghezze delle soluzioni di successo. La seconda fase sfrutta questi schemi come guida meta-cognitiva, incorporandoli direttamente nel contesto di ragionamento del modello per garantire flessibilità durante l'inferenza. Esperimenti su benchmark di ragionamento matematico dimostrano che LAPO riduce l'uso di token fino al 40,9% migliorando al contempo l'accuratezza del 2,3%. La nostra analisi rivela che i modelli addestrati con LAPO sviluppano capacità emergenti di allocare risorse computazionali in base alla complessità del problema, raggiungendo un ragionamento efficiente senza sacrificare la qualità.
English
Large reasoning models have achieved remarkable performance through extended
chain-of-thought sequences, yet this computational freedom leads to excessive
token generation even for simple problems. We present Length-Adaptive Policy
Optimization (LAPO), a novel framework that transforms reasoning length control
from an external constraint into an intrinsic model capability. Unlike existing
approaches that impose rigid limits or rely on post-hoc interventions, LAPO
enables models to internalize an understanding of appropriate reasoning depth
through a two-stage reinforcement learning process. In the first stage, models
learn natural reasoning patterns by discovering the statistical distribution of
successful solution lengths. The second stage leverages these patterns as
meta-cognitive guidance, embedding them directly within the model's reasoning
context to ensure inference-time flexibility. Experiments on mathematical
reasoning benchmarks demonstrate that LAPO reduces token usage by up to 40.9\%
while improving accuracy by 2.3\%. Our analysis reveals that models trained
with LAPO develop emergent abilities to allocate computational resources based
on problem complexity, achieving efficient reasoning without sacrificing
quality.