ChatPaper.aiChatPaper

Ottimizzazione del Ragionamento Anytime tramite Ottimizzazione della Politica Relativa al Budget

Optimizing Anytime Reasoning via Budget Relative Policy Optimization

May 19, 2025
Autori: Penghui Qi, Zichen Liu, Tianyu Pang, Chao Du, Wee Sun Lee, Min Lin
cs.AI

Abstract

Il ridimensionamento del calcolo in fase di test è cruciale per potenziare le capacità di ragionamento dei grandi modelli linguistici (LLM). Gli approcci esistenti tipicamente impiegano l'apprendimento per rinforzo (RL) per massimizzare una ricompensa verificabile ottenuta alla fine delle tracce di ragionamento. Tuttavia, tali metodi ottimizzano solo la performance finale sotto un budget di token ampio e fisso, il che ostacola l'efficienza sia nell'addestramento che nel deployment. In questo lavoro, presentiamo un nuovo framework, AnytimeReasoner, per ottimizzare la performance di ragionamento in qualsiasi momento, con l'obiettivo di migliorare l'efficienza dei token e la flessibilità del ragionamento sotto vincoli di budget di token variabili. Per raggiungere questo obiettivo, tronchiamo il processo di pensiero completo per adattarlo a budget di token campionati da una distribuzione a priori, costringendo il modello a riassumere la risposta ottimale per ogni pensiero troncato per la verifica. Questo introduce ricompense dense verificabili nel processo di ragionamento, facilitando un'assegnazione di credito più efficace nell'ottimizzazione RL. Successivamente, ottimizziamo le politiche di pensiero e riassunto in modo disaccoppiato per massimizzare la ricompensa cumulativa. Inoltre, introduciamo una nuova tecnica di riduzione della varianza, Budget Relative Policy Optimization (BRPO), per migliorare la robustezza e l'efficienza del processo di apprendimento quando si rinforza la politica di pensiero. I risultati empirici in compiti di ragionamento matematico dimostrano che il nostro metodo supera costantemente GRPO in tutti i budget di pensiero sotto varie distribuzioni a priori, migliorando sia l'addestramento che l'efficienza dei token.
English
Scaling test-time compute is crucial for enhancing the reasoning capabilities of large language models (LLMs). Existing approaches typically employ reinforcement learning (RL) to maximize a verifiable reward obtained at the end of reasoning traces. However, such methods optimize only the final performance under a large and fixed token budget, which hinders efficiency in both training and deployment. In this work, we present a novel framework, AnytimeReasoner, to optimize anytime reasoning performance, which aims to improve token efficiency and the flexibility of reasoning under varying token budget constraints. To achieve this, we truncate the complete thinking process to fit within sampled token budgets from a prior distribution, compelling the model to summarize the optimal answer for each truncated thinking for verification. This introduces verifiable dense rewards into the reasoning process, facilitating more effective credit assignment in RL optimization. We then optimize the thinking and summary policies in a decoupled manner to maximize the cumulative reward. Additionally, we introduce a novel variance reduction technique, Budget Relative Policy Optimization (BRPO), to enhance the robustness and efficiency of the learning process when reinforcing the thinking policy. Empirical results in mathematical reasoning tasks demonstrate that our method consistently outperforms GRPO across all thinking budgets under various prior distributions, enhancing both training and token efficiency.
PDF362May 21, 2025