Stabilisierung von Wissen, Förderung des logischen Denkens: Dual-Token-Einschränkungen für RLVR
Stabilizing Knowledge, Promoting Reasoning: Dual-Token Constraints for RLVR
July 21, 2025
papers.authors: Jiakang Wang, Runze Liu, Fuzheng Zhang, Xiu Li, Guorui Zhou
cs.AI
papers.abstract
Reinforcement Learning with Verifiable Rewards (RLVR) hat sich als effektive Methode nach dem Training erwiesen, um die Fähigkeiten von Large Language Models (LLMs) zur logischen Schlussfolgerung zu verbessern, insbesondere durch die Formung höherer Verhaltensweisen wie Reflexion und Planung. Bisherige RLVR-Algorithmen wenden jedoch oft einheitliche Trainingssignale auf alle Tokens an, ohne die unterschiedlichen Rollen von Tokens mit niedriger Entropie, die Wissen repräsentieren, und Tokens mit hoher Entropie, die logisches Denken betreffen, zu berücksichtigen. Einige neuere Methoden versuchen, diese Token-Typen durch Gradient Masking oder asynchrone Updates zu trennen, doch diese Ansätze können semantische Abhängigkeiten in der Modellausgabe unterbrechen und effektives Lernen behindern. In dieser Arbeit schlagen wir Archer vor, einen entropiebewussten RLVR-Ansatz mit dualen Token-Beschränkungen und synchronen Updates. Konkret wendet unsere Methode schwächere KL-Regularisierung und höhere Clipping-Schwellenwerte auf logische Tokens an, um Exploration zu fördern, während stärkere Beschränkungen auf Wissens-Tokens verwendet werden, um faktisches Wissen zu bewahren. Experimentelle Ergebnisse auf mehreren Benchmarks für mathematisches Denken und Code-Generierung zeigen, dass unser Ansatz frühere RLVR-Methoden deutlich übertrifft und die Leistung von Modellen vergleichbarer Größe erreicht oder sogar übertrifft. Der Code ist verfügbar unter https://github.com/wizard-III/ArcherCodeR.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has become an effective
post-training method for improving the reasoning abilities of Large Language
Models (LLMs), mainly by shaping higher-order behaviors such as reflection and
planning. However, previous RLVR algorithms often apply uniform training
signals to all tokens, without considering the different roles of low-entropy
knowledge-related tokens and high-entropy reasoning-related tokens. Some recent
methods try to separate these token types by gradient masking or asynchronous
updates, but these approaches may break semantic dependencies in the model
output and hinder effective learning. In this work, we propose Archer, an
entropy-aware RLVR approach with dual-token constraints and synchronous
updates. Specifically, our method applies weaker KL regularization and higher
clipping thresholds to reasoning tokens to encourage exploration, while using
stronger constraints on knowledge tokens to maintain factual knowledge.
Experimental results on several mathematical reasoning and code generation
benchmarks show that our approach significantly outperforms previous RLVR
methods, reaching or exceeding state-of-the-art performance among models of
comparable size. The code is available at
https://github.com/wizard-III/ArcherCodeR.