Kennis Stabiliseren, Redeneren Bevorderen: Dual-Token Beperkingen voor RLVR
Stabilizing Knowledge, Promoting Reasoning: Dual-Token Constraints for RLVR
July 21, 2025
Auteurs: Jiakang Wang, Runze Liu, Fuzheng Zhang, Xiu Li, Guorui Zhou
cs.AI
Samenvatting
Reinforcement Learning met Verifieerbare Beloningen (RLVR) is een effectieve
na-trainingsmethode geworden om de redeneervaardigheden van Large Language
Models (LLMs) te verbeteren, voornamelijk door hogere-orde gedragingen zoals
reflectie en planning te vormen. Eerdere RLVR-algoritmen passen echter vaak
uniforme trainingssignalen toe op alle tokens, zonder rekening te houden met de
verschillende rollen van tokens met lage entropie die gerelateerd zijn aan kennis
en tokens met hoge entropie die gerelateerd zijn aan redenering. Sommige recente
methoden proberen deze tokentypen te scheiden door middel van gradientmaskering
of asynchrone updates, maar deze benaderingen kunnen semantische afhankelijkheden
in de modeloutput verstoren en effectief leren belemmeren. In dit werk stellen
we Archer voor, een entropiebewuste RLVR-benadering met dubbele tokenbeperkingen
en synchrone updates. Specifiek past onze methode zwakkere KL-regularisatie en
hogere afkappingsdrempels toe op redeneringstokens om exploratie aan te moedigen,
terwijl sterkere beperkingen worden gebruikt op kennistokens om feitelijke kennis
te behouden. Experimentele resultaten op verschillende wiskundige redeneer- en
codegeneratiebenchmarks laten zien dat onze aanpak aanzienlijk beter presteert
dan eerdere RLVR-methoden, en de state-of-the-art prestaties bereikt of overtreft
bij modellen van vergelijkbare grootte. De code is beschikbaar op
https://github.com/wizard-III/ArcherCodeR.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has become an effective
post-training method for improving the reasoning abilities of Large Language
Models (LLMs), mainly by shaping higher-order behaviors such as reflection and
planning. However, previous RLVR algorithms often apply uniform training
signals to all tokens, without considering the different roles of low-entropy
knowledge-related tokens and high-entropy reasoning-related tokens. Some recent
methods try to separate these token types by gradient masking or asynchronous
updates, but these approaches may break semantic dependencies in the model
output and hinder effective learning. In this work, we propose Archer, an
entropy-aware RLVR approach with dual-token constraints and synchronous
updates. Specifically, our method applies weaker KL regularization and higher
clipping thresholds to reasoning tokens to encourage exploration, while using
stronger constraints on knowledge tokens to maintain factual knowledge.
Experimental results on several mathematical reasoning and code generation
benchmarks show that our approach significantly outperforms previous RLVR
methods, reaching or exceeding state-of-the-art performance among models of
comparable size. The code is available at
https://github.com/wizard-III/ArcherCodeR.