Stabiliser les connaissances, promouvoir le raisonnement : Contraintes à double jeton pour RLVR
Stabilizing Knowledge, Promoting Reasoning: Dual-Token Constraints for RLVR
July 21, 2025
papers.authors: Jiakang Wang, Runze Liu, Fuzheng Zhang, Xiu Li, Guorui Zhou
cs.AI
papers.abstract
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) est devenu une méthode efficace d'après-entraînement pour améliorer les capacités de raisonnement des grands modèles de langage (LLMs), principalement en façonnant des comportements d'ordre supérieur tels que la réflexion et la planification. Cependant, les algorithmes RLVR précédents appliquent souvent des signaux d'entraînement uniformes à tous les tokens, sans tenir compte des rôles différents des tokens à faible entropie liés aux connaissances et des tokens à haute entropie liés au raisonnement. Certaines méthodes récentes tentent de séparer ces types de tokens par masquage de gradient ou mises à jour asynchrones, mais ces approches peuvent rompre les dépendances sémantiques dans la sortie du modèle et entraver un apprentissage efficace. Dans ce travail, nous proposons Archer, une approche RLVR sensible à l'entropie avec des contraintes duales sur les tokens et des mises à jour synchrones. Plus précisément, notre méthode applique une régularisation KL plus faible et des seuils de découpage plus élevés aux tokens de raisonnement pour encourager l'exploration, tout en utilisant des contraintes plus fortes sur les tokens de connaissance pour préserver les connaissances factuelles. Les résultats expérimentaux sur plusieurs benchmarks de raisonnement mathématique et de génération de code montrent que notre approche surpasse significativement les méthodes RLVR précédentes, atteignant ou dépassant les performances de pointe parmi les modèles de taille comparable. Le code est disponible à l'adresse suivante : https://github.com/wizard-III/ArcherCodeR.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has become an effective
post-training method for improving the reasoning abilities of Large Language
Models (LLMs), mainly by shaping higher-order behaviors such as reflection and
planning. However, previous RLVR algorithms often apply uniform training
signals to all tokens, without considering the different roles of low-entropy
knowledge-related tokens and high-entropy reasoning-related tokens. Some recent
methods try to separate these token types by gradient masking or asynchronous
updates, but these approaches may break semantic dependencies in the model
output and hinder effective learning. In this work, we propose Archer, an
entropy-aware RLVR approach with dual-token constraints and synchronous
updates. Specifically, our method applies weaker KL regularization and higher
clipping thresholds to reasoning tokens to encourage exploration, while using
stronger constraints on knowledge tokens to maintain factual knowledge.
Experimental results on several mathematical reasoning and code generation
benchmarks show that our approach significantly outperforms previous RLVR
methods, reaching or exceeding state-of-the-art performance among models of
comparable size. The code is available at
https://github.com/wizard-III/ArcherCodeR.