Стабилизация знаний, стимулирование рассуждений: ограничения с двойными токенами для RLVR
Stabilizing Knowledge, Promoting Reasoning: Dual-Token Constraints for RLVR
July 21, 2025
Авторы: Jiakang Wang, Runze Liu, Fuzheng Zhang, Xiu Li, Guorui Zhou
cs.AI
Аннотация
Обучение с подкреплением с верифицируемыми наградами (RLVR) стало эффективным методом посттренировки для улучшения способностей к рассуждению у больших языковых моделей (LLM), главным образом за счет формирования поведений более высокого порядка, таких как рефлексия и планирование. Однако предыдущие алгоритмы RLVR часто применяли единые сигналы обучения ко всем токенам, не учитывая различные роли низкоэнтропийных токенов, связанных со знаниями, и высокоэнтропийных токенов, связанных с рассуждениями. Некоторые недавние методы пытаются разделить эти типы токенов с помощью маскирования градиентов или асинхронных обновлений, но такие подходы могут нарушать семантические зависимости в выходных данных модели и препятствовать эффективному обучению. В данной работе мы предлагаем Archer — подход RLVR, учитывающий энтропию, с двойными ограничениями на токены и синхронными обновлениями. В частности, наш метод применяет более слабую регуляризацию KL и более высокие пороги отсечения для токенов рассуждений, чтобы стимулировать исследование, в то время как для токенов знаний используются более строгие ограничения для сохранения фактических знаний. Экспериментальные результаты на нескольких бенчмарках математических рассуждений и генерации кода показывают, что наш подход значительно превосходит предыдущие методы RLVR, достигая или превышая современные показатели среди моделей сопоставимого размера. Код доступен по адресу https://github.com/wizard-III/ArcherCodeR.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has become an effective
post-training method for improving the reasoning abilities of Large Language
Models (LLMs), mainly by shaping higher-order behaviors such as reflection and
planning. However, previous RLVR algorithms often apply uniform training
signals to all tokens, without considering the different roles of low-entropy
knowledge-related tokens and high-entropy reasoning-related tokens. Some recent
methods try to separate these token types by gradient masking or asynchronous
updates, but these approaches may break semantic dependencies in the model
output and hinder effective learning. In this work, we propose Archer, an
entropy-aware RLVR approach with dual-token constraints and synchronous
updates. Specifically, our method applies weaker KL regularization and higher
clipping thresholds to reasoning tokens to encourage exploration, while using
stronger constraints on knowledge tokens to maintain factual knowledge.
Experimental results on several mathematical reasoning and code generation
benchmarks show that our approach significantly outperforms previous RLVR
methods, reaching or exceeding state-of-the-art performance among models of
comparable size. The code is available at
https://github.com/wizard-III/ArcherCodeR.