Stabilizzare la Conoscenza, Promuovere il Ragionamento: Vincoli a Doppio Token per RLVR

Abstract

Il Reinforcement Learning con Ricompense Verificabili (RLVR) è diventato un metodo efficace di post-addestramento per migliorare le capacità di ragionamento dei Modelli Linguistici di Grande Dimensione (LLM), principalmente modellando comportamenti di ordine superiore come la riflessione e la pianificazione. Tuttavia, gli algoritmi RLVR precedenti applicano spesso segnali di addestramento uniformi a tutti i token, senza considerare i diversi ruoli dei token a bassa entropia legati alla conoscenza e dei token ad alta entropia legati al ragionamento. Alcuni metodi recenti cercano di separare questi tipi di token attraverso mascheramento del gradiente o aggiornamenti asincroni, ma questi approcci possono interrompere le dipendenze semantiche nell'output del modello e ostacolare un apprendimento efficace. In questo lavoro, proponiamo Archer, un approccio RLVR consapevole dell'entropia con vincoli dual-token e aggiornamenti sincroni. Nello specifico, il nostro metodo applica una regolarizzazione KL più debole e soglie di clipping più alte ai token di ragionamento per incoraggiare l'esplorazione, mentre utilizza vincoli più forti sui token di conoscenza per mantenere le informazioni fattuali. I risultati sperimentali su diversi benchmark di ragionamento matematico e generazione di codice mostrano che il nostro approccio supera significativamente i precedenti metodi RLVR, raggiungendo o superando le prestazioni di stato dell'arte tra modelli di dimensioni comparabili. Il codice è disponibile all'indirizzo https://github.com/wizard-III/ArcherCodeR.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has become an effective post-training method for improving the reasoning abilities of Large Language Models (LLMs), mainly by shaping higher-order behaviors such as reflection and planning. However, previous RLVR algorithms often apply uniform training signals to all tokens, without considering the different roles of low-entropy knowledge-related tokens and high-entropy reasoning-related tokens. Some recent methods try to separate these token types by gradient masking or asynchronous updates, but these approaches may break semantic dependencies in the model output and hinder effective learning. In this work, we propose Archer, an entropy-aware RLVR approach with dual-token constraints and synchronous updates. Specifically, our method applies weaker KL regularization and higher clipping thresholds to reasoning tokens to encourage exploration, while using stronger constraints on knowledge tokens to maintain factual knowledge. Experimental results on several mathematical reasoning and code generation benchmarks show that our approach significantly outperforms previous RLVR methods, reaching or exceeding state-of-the-art performance among models of comparable size. The code is available at https://github.com/wizard-III/ArcherCodeR.

Stabilizzare la Conoscenza, Promuovere il Ragionamento: Vincoli a Doppio Token per RLVR

Stabilizing Knowledge, Promoting Reasoning: Dual-Token Constraints for RLVR

Abstract

Support