Estabilizando o Conhecimento, Promovendo o Raciocínio: Restrições de Duplo-Token para RLVR
Stabilizing Knowledge, Promoting Reasoning: Dual-Token Constraints for RLVR
July 21, 2025
Autores: Jiakang Wang, Runze Liu, Fuzheng Zhang, Xiu Li, Guorui Zhou
cs.AI
Resumo
O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) tornou-se um método eficaz de pós-treinamento para aprimorar as habilidades de raciocínio de Modelos de Linguagem de Grande Escala (LLMs), principalmente ao moldar comportamentos de ordem superior, como reflexão e planejamento. No entanto, algoritmos anteriores de RLVR frequentemente aplicam sinais de treinamento uniformes a todos os tokens, sem considerar os diferentes papéis dos tokens relacionados a conhecimento de baixa entropia e dos tokens relacionados a raciocínio de alta entropia. Alguns métodos recentes tentam separar esses tipos de tokens por meio de mascaramento de gradientes ou atualizações assíncronas, mas essas abordagens podem quebrar dependências semânticas na saída do modelo e prejudicar o aprendizado eficaz. Neste trabalho, propomos o Archer, uma abordagem de RLVR consciente da entropia com restrições de tokens duais e atualizações síncronas. Especificamente, nosso método aplica regularização KL mais fraca e limites de corte mais altos aos tokens de raciocínio para incentivar a exploração, enquanto usa restrições mais fortes nos tokens de conhecimento para manter o conhecimento factual. Resultados experimentais em vários benchmarks de raciocínio matemático e geração de código mostram que nossa abordagem supera significativamente os métodos anteriores de RLVR, atingindo ou excedendo o desempenho de ponta entre modelos de tamanho comparável. O código está disponível em https://github.com/wizard-III/ArcherCodeR.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has become an effective
post-training method for improving the reasoning abilities of Large Language
Models (LLMs), mainly by shaping higher-order behaviors such as reflection and
planning. However, previous RLVR algorithms often apply uniform training
signals to all tokens, without considering the different roles of low-entropy
knowledge-related tokens and high-entropy reasoning-related tokens. Some recent
methods try to separate these token types by gradient masking or asynchronous
updates, but these approaches may break semantic dependencies in the model
output and hinder effective learning. In this work, we propose Archer, an
entropy-aware RLVR approach with dual-token constraints and synchronous
updates. Specifically, our method applies weaker KL regularization and higher
clipping thresholds to reasoning tokens to encourage exploration, while using
stronger constraints on knowledge tokens to maintain factual knowledge.
Experimental results on several mathematical reasoning and code generation
benchmarks show that our approach significantly outperforms previous RLVR
methods, reaching or exceeding state-of-the-art performance among models of
comparable size. The code is available at
https://github.com/wizard-III/ArcherCodeR.