Optimierung von Anytime-Reasoning durch Budget-Relative Policy Optimization
Optimizing Anytime Reasoning via Budget Relative Policy Optimization
May 19, 2025
Autoren: Penghui Qi, Zichen Liu, Tianyu Pang, Chao Du, Wee Sun Lee, Min Lin
cs.AI
Zusammenfassung
Die Skalierung der Rechenleistung zur Testzeit ist entscheidend, um die Fähigkeiten zur logischen Schlussfolgerung großer Sprachmodelle (LLMs) zu verbessern. Bisherige Ansätze verwenden typischerweise Reinforcement Learning (RL), um einen verifizierbaren Belohnungswert zu maximieren, der am Ende von Schlussfolgerungspfaden erhalten wird. Solche Methoden optimieren jedoch nur die Endleistung unter einem großen und festen Token-Budget, was die Effizienz sowohl im Training als auch im Einsatz beeinträchtigt. In dieser Arbeit stellen wir ein neuartiges Framework, AnytimeReasoner, vor, um die Leistung bei der Schlussfolgerung zu jedem Zeitpunkt zu optimieren, mit dem Ziel, die Token-Effizienz und die Flexibilität der Schlussfolgerung unter variierenden Token-Budget-Beschränkungen zu verbessern. Um dies zu erreichen, kürzen wir den vollständigen Denkprozess, um ihn in zufällig ausgewählte Token-Budgets aus einer Prior-Verteilung einzupassen, wodurch das Modell gezwungen wird, die optimale Antwort für jeden gekürzten Denkprozess zur Verifizierung zusammenzufassen. Dies führt verifizierbare dichte Belohnungen in den Schlussfolgerungsprozess ein und erleichtert eine effektivere Zuweisung von Belohnungen in der RL-Optimierung. Anschließend optimieren wir die Denk- und Zusammenfassungsstrategien auf entkoppelte Weise, um den kumulativen Belohnungswert zu maximieren. Zusätzlich führen wir eine neuartige Technik zur Reduzierung der Varianz ein, die Budget Relative Policy Optimization (BRPO), um die Robustheit und Effizienz des Lernprozesses bei der Verstärkung der Denkstrategie zu verbessern. Empirische Ergebnisse in mathematischen Schlussfolgerungsaufgaben zeigen, dass unsere Methode GRPO unter verschiedenen Prior-Verteilungen und allen Denk-Budgets durchweg übertrifft und sowohl das Training als auch die Token-Effizienz verbessert.
English
Scaling test-time compute is crucial for enhancing the reasoning capabilities
of large language models (LLMs). Existing approaches typically employ
reinforcement learning (RL) to maximize a verifiable reward obtained at the end
of reasoning traces. However, such methods optimize only the final performance
under a large and fixed token budget, which hinders efficiency in both training
and deployment. In this work, we present a novel framework, AnytimeReasoner, to
optimize anytime reasoning performance, which aims to improve token efficiency
and the flexibility of reasoning under varying token budget constraints. To
achieve this, we truncate the complete thinking process to fit within sampled
token budgets from a prior distribution, compelling the model to summarize the
optimal answer for each truncated thinking for verification. This introduces
verifiable dense rewards into the reasoning process, facilitating more
effective credit assignment in RL optimization. We then optimize the thinking
and summary policies in a decoupled manner to maximize the cumulative reward.
Additionally, we introduce a novel variance reduction technique, Budget
Relative Policy Optimization (BRPO), to enhance the robustness and efficiency
of the learning process when reinforcing the thinking policy. Empirical results
in mathematical reasoning tasks demonstrate that our method consistently
outperforms GRPO across all thinking budgets under various prior distributions,
enhancing both training and token efficiency.Summary
AI-Generated Summary