Optimierung von Anytime-Reasoning durch Budget-Relative Policy Optimization

papers.abstract

Die Skalierung der Rechenleistung zur Testzeit ist entscheidend, um die Fähigkeiten zur logischen Schlussfolgerung großer Sprachmodelle (LLMs) zu verbessern. Bisherige Ansätze verwenden typischerweise Reinforcement Learning (RL), um einen verifizierbaren Belohnungswert zu maximieren, der am Ende von Schlussfolgerungspfaden erhalten wird. Solche Methoden optimieren jedoch nur die Endleistung unter einem großen und festen Token-Budget, was die Effizienz sowohl im Training als auch im Einsatz beeinträchtigt. In dieser Arbeit stellen wir ein neuartiges Framework, AnytimeReasoner, vor, um die Leistung bei der Schlussfolgerung zu jedem Zeitpunkt zu optimieren, mit dem Ziel, die Token-Effizienz und die Flexibilität der Schlussfolgerung unter variierenden Token-Budget-Beschränkungen zu verbessern. Um dies zu erreichen, kürzen wir den vollständigen Denkprozess, um ihn in zufällig ausgewählte Token-Budgets aus einer Prior-Verteilung einzupassen, wodurch das Modell gezwungen wird, die optimale Antwort für jeden gekürzten Denkprozess zur Verifizierung zusammenzufassen. Dies führt verifizierbare dichte Belohnungen in den Schlussfolgerungsprozess ein und erleichtert eine effektivere Zuweisung von Belohnungen in der RL-Optimierung. Anschließend optimieren wir die Denk- und Zusammenfassungsstrategien auf entkoppelte Weise, um den kumulativen Belohnungswert zu maximieren. Zusätzlich führen wir eine neuartige Technik zur Reduzierung der Varianz ein, die Budget Relative Policy Optimization (BRPO), um die Robustheit und Effizienz des Lernprozesses bei der Verstärkung der Denkstrategie zu verbessern. Empirische Ergebnisse in mathematischen Schlussfolgerungsaufgaben zeigen, dass unsere Methode GRPO unter verschiedenen Prior-Verteilungen und allen Denk-Budgets durchweg übertrifft und sowohl das Training als auch die Token-Effizienz verbessert.

English

Scaling test-time compute is crucial for enhancing the reasoning capabilities of large language models (LLMs). Existing approaches typically employ reinforcement learning (RL) to maximize a verifiable reward obtained at the end of reasoning traces. However, such methods optimize only the final performance under a large and fixed token budget, which hinders efficiency in both training and deployment. In this work, we present a novel framework, AnytimeReasoner, to optimize anytime reasoning performance, which aims to improve token efficiency and the flexibility of reasoning under varying token budget constraints. To achieve this, we truncate the complete thinking process to fit within sampled token budgets from a prior distribution, compelling the model to summarize the optimal answer for each truncated thinking for verification. This introduces verifiable dense rewards into the reasoning process, facilitating more effective credit assignment in RL optimization. We then optimize the thinking and summary policies in a decoupled manner to maximize the cumulative reward. Additionally, we introduce a novel variance reduction technique, Budget Relative Policy Optimization (BRPO), to enhance the robustness and efficiency of the learning process when reinforcing the thinking policy. Empirical results in mathematical reasoning tasks demonstrate that our method consistently outperforms GRPO across all thinking budgets under various prior distributions, enhancing both training and token efficiency.

Optimierung von Anytime-Reasoning durch Budget-Relative Policy Optimization

Optimizing Anytime Reasoning via Budget Relative Policy Optimization

papers.abstract

Support