Estabilizando el conocimiento, promoviendo el razonamiento: Restricciones de doble token para RLVR

Resumen

El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR, por sus siglas en inglés) se ha convertido en un método efectivo de posentrenamiento para mejorar las capacidades de razonamiento de los Modelos de Lenguaje a Gran Escala (LLMs), principalmente moldeando comportamientos de orden superior como la reflexión y la planificación. Sin embargo, los algoritmos previos de RLVR suelen aplicar señales de entrenamiento uniformes a todos los tokens, sin considerar los diferentes roles de los tokens relacionados con conocimiento de baja entropía y los tokens relacionados con razonamiento de alta entropía. Algunos métodos recientes intentan separar estos tipos de tokens mediante enmascaramiento de gradientes o actualizaciones asíncronas, pero estos enfoques pueden romper las dependencias semánticas en la salida del modelo y dificultar el aprendizaje efectivo. En este trabajo, proponemos Archer, un enfoque de RLVR consciente de la entropía con restricciones de doble token y actualizaciones síncronas. Específicamente, nuestro método aplica una regularización KL más débil y umbrales de recorte más altos a los tokens de razonamiento para fomentar la exploración, mientras utiliza restricciones más fuertes en los tokens de conocimiento para mantener el conocimiento factual. Los resultados experimentales en varios puntos de referencia de razonamiento matemático y generación de código muestran que nuestro enfoque supera significativamente a los métodos previos de RLVR, alcanzando o superando el rendimiento de vanguardia entre modelos de tamaño comparable. El código está disponible en https://github.com/wizard-III/ArcherCodeR.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has become an effective post-training method for improving the reasoning abilities of Large Language Models (LLMs), mainly by shaping higher-order behaviors such as reflection and planning. However, previous RLVR algorithms often apply uniform training signals to all tokens, without considering the different roles of low-entropy knowledge-related tokens and high-entropy reasoning-related tokens. Some recent methods try to separate these token types by gradient masking or asynchronous updates, but these approaches may break semantic dependencies in the model output and hinder effective learning. In this work, we propose Archer, an entropy-aware RLVR approach with dual-token constraints and synchronous updates. Specifically, our method applies weaker KL regularization and higher clipping thresholds to reasoning tokens to encourage exploration, while using stronger constraints on knowledge tokens to maintain factual knowledge. Experimental results on several mathematical reasoning and code generation benchmarks show that our approach significantly outperforms previous RLVR methods, reaching or exceeding state-of-the-art performance among models of comparable size. The code is available at https://github.com/wizard-III/ArcherCodeR.

Estabilizando el conocimiento, promoviendo el razonamiento: Restricciones de doble token para RLVR

Stabilizing Knowledge, Promoting Reasoning: Dual-Token Constraints for RLVR

Resumen

Support