Optimaliseren van Anytime Redeneren via Budget Relatief Beleidsoptimalisatie
Optimizing Anytime Reasoning via Budget Relative Policy Optimization
May 19, 2025
Auteurs: Penghui Qi, Zichen Liu, Tianyu Pang, Chao Du, Wee Sun Lee, Min Lin
cs.AI
Samenvatting
Het schalen van testtijdberekeningen is cruciaal voor het verbeteren van de redeneervaardigheden van grote taalmodellen (LLMs). Bestaande benaderingen maken doorgaans gebruik van reinforcement learning (RL) om een verifieerbare beloning te maximaliseren die aan het einde van redeneersporen wordt verkregen. Dergelijke methoden optimaliseren echter alleen de eindprestatie onder een groot en vast tokenbudget, wat de efficiëntie in zowel training als implementatie belemmert. In dit werk presenteren we een nieuw raamwerk, AnytimeReasoner, om de redeneerprestatie op elk moment te optimaliseren, met als doel de token-efficiëntie en de flexibiliteit van redeneren onder variërende tokenbudgetbeperkingen te verbeteren. Om dit te bereiken, korten we het volledige denkproces in om het binnen steekproefsgewijze tokenbudgets uit een priorverdeling te laten passen, waardoor het model gedwongen wordt het optimale antwoord voor elk ingekort denken samen te vatten voor verificatie. Dit introduceert verifieerbare dichte beloningen in het redeneerproces, wat een effectievere krediettoewijzing in RL-optimalisatie mogelijk maakt. Vervolgens optimaliseren we het denk- en samenvattingsbeleid op een ontkoppelde manier om de cumulatieve beloning te maximaliseren. Daarnaast introduceren we een nieuwe techniek voor variantiereductie, Budget Relative Policy Optimization (BRPO), om de robuustheid en efficiëntie van het leerproces te verbeteren bij het versterken van het denkbeleid. Empirische resultaten in wiskundige redeneertaken tonen aan dat onze methode consistent beter presteert dan GRPO bij alle denkbudgets onder verschillende priorverdelingen, waardoor zowel de training als de token-efficiëntie worden verbeterd.
English
Scaling test-time compute is crucial for enhancing the reasoning capabilities
of large language models (LLMs). Existing approaches typically employ
reinforcement learning (RL) to maximize a verifiable reward obtained at the end
of reasoning traces. However, such methods optimize only the final performance
under a large and fixed token budget, which hinders efficiency in both training
and deployment. In this work, we present a novel framework, AnytimeReasoner, to
optimize anytime reasoning performance, which aims to improve token efficiency
and the flexibility of reasoning under varying token budget constraints. To
achieve this, we truncate the complete thinking process to fit within sampled
token budgets from a prior distribution, compelling the model to summarize the
optimal answer for each truncated thinking for verification. This introduces
verifiable dense rewards into the reasoning process, facilitating more
effective credit assignment in RL optimization. We then optimize the thinking
and summary policies in a decoupled manner to maximize the cumulative reward.
Additionally, we introduce a novel variance reduction technique, Budget
Relative Policy Optimization (BRPO), to enhance the robustness and efficiency
of the learning process when reinforcing the thinking policy. Empirical results
in mathematical reasoning tasks demonstrate that our method consistently
outperforms GRPO across all thinking budgets under various prior distributions,
enhancing both training and token efficiency.Summary
AI-Generated Summary