Ottimizzazione del Ragionamento Anytime tramite Ottimizzazione della Politica Relativa al Budget
Optimizing Anytime Reasoning via Budget Relative Policy Optimization
May 19, 2025
Autori: Penghui Qi, Zichen Liu, Tianyu Pang, Chao Du, Wee Sun Lee, Min Lin
cs.AI
Abstract
Il ridimensionamento del calcolo in fase di test è cruciale per potenziare le capacità di ragionamento dei grandi modelli linguistici (LLM). Gli approcci esistenti tipicamente impiegano l'apprendimento per rinforzo (RL) per massimizzare una ricompensa verificabile ottenuta alla fine delle tracce di ragionamento. Tuttavia, tali metodi ottimizzano solo la performance finale sotto un budget di token ampio e fisso, il che ostacola l'efficienza sia nell'addestramento che nel deployment. In questo lavoro, presentiamo un nuovo framework, AnytimeReasoner, per ottimizzare la performance di ragionamento in qualsiasi momento, con l'obiettivo di migliorare l'efficienza dei token e la flessibilità del ragionamento sotto vincoli di budget di token variabili. Per raggiungere questo obiettivo, tronchiamo il processo di pensiero completo per adattarlo a budget di token campionati da una distribuzione a priori, costringendo il modello a riassumere la risposta ottimale per ogni pensiero troncato per la verifica. Questo introduce ricompense dense verificabili nel processo di ragionamento, facilitando un'assegnazione di credito più efficace nell'ottimizzazione RL. Successivamente, ottimizziamo le politiche di pensiero e riassunto in modo disaccoppiato per massimizzare la ricompensa cumulativa. Inoltre, introduciamo una nuova tecnica di riduzione della varianza, Budget Relative Policy Optimization (BRPO), per migliorare la robustezza e l'efficienza del processo di apprendimento quando si rinforza la politica di pensiero. I risultati empirici in compiti di ragionamento matematico dimostrano che il nostro metodo supera costantemente GRPO in tutti i budget di pensiero sotto varie distribuzioni a priori, migliorando sia l'addestramento che l'efficienza dei token.
English
Scaling test-time compute is crucial for enhancing the reasoning capabilities
of large language models (LLMs). Existing approaches typically employ
reinforcement learning (RL) to maximize a verifiable reward obtained at the end
of reasoning traces. However, such methods optimize only the final performance
under a large and fixed token budget, which hinders efficiency in both training
and deployment. In this work, we present a novel framework, AnytimeReasoner, to
optimize anytime reasoning performance, which aims to improve token efficiency
and the flexibility of reasoning under varying token budget constraints. To
achieve this, we truncate the complete thinking process to fit within sampled
token budgets from a prior distribution, compelling the model to summarize the
optimal answer for each truncated thinking for verification. This introduces
verifiable dense rewards into the reasoning process, facilitating more
effective credit assignment in RL optimization. We then optimize the thinking
and summary policies in a decoupled manner to maximize the cumulative reward.
Additionally, we introduce a novel variance reduction technique, Budget
Relative Policy Optimization (BRPO), to enhance the robustness and efficiency
of the learning process when reinforcing the thinking policy. Empirical results
in mathematical reasoning tasks demonstrate that our method consistently
outperforms GRPO across all thinking budgets under various prior distributions,
enhancing both training and token efficiency.