Sulla Direzione degli Aggiornamenti RLVR per il Ragionamento nei LLM: Identificazione e Sfruttamento

Abstract

L'apprendimento per rinforzo con ricompense verificabili (RLVR) ha migliorato significativamente le capacità di ragionamento dei grandi modelli linguistici. Sebbene le analisi esistenti identifichino che i cambiamenti indotti dall'RLVR sono sparsi, si concentrano principalmente sull'entità di questi aggiornamenti, trascurandone in larga misura la direzione. In questo lavoro, sosteniamo che la direzione degli aggiornamenti sia una lente più critica per comprendere gli effetti dell'RLVR, che può essere catturata dalla differenza logaritmica delle probabilità a livello di token con segno, Δlog p, tra i modelli base e quelli finali addestrati con RLVR. Attraverso analisi statistiche e interventi di sostituzione dei token, dimostriamo che Δlog p identifica più efficacemente aggiornamenti sparsi ma cruciali per il ragionamento rispetto a metriche basate sull'entità (ad esempio, divergenza o entropia). Sulla base di questa intuizione, proponiamo due applicazioni pratiche: (1) un metodo di estrapolazione a tempo di test che amplifica la politica lungo la direzione appresa di Δlog p per migliorare l'accuratezza del ragionamento senza ulteriore addestramento; (2) un metodo di ripesatura a tempo di addestramento che focalizza l'apprendimento sui token a bassa probabilità (corrispondenti a un Δlog p più alto), il che migliora le prestazioni di ragionamento attraverso modelli e benchmark. Il nostro lavoro stabilisce la direzione del cambiamento come un principio chiave per analizzare e migliorare l'RLVR.

English

Reinforcement learning with verifiable rewards (RLVR) has substantially improved the reasoning capabilities of large language models. While existing analyses identify that RLVR-induced changes are sparse, they primarily focus on the magnitude of these updates, largely overlooking their direction. In this work, we argue that the direction of updates is a more critical lens for understanding RLVR's effects, which can be captured by the signed, token-level log probability difference Δlog p between the base and final RLVR models. Through statistical analysis and token-replacement interventions, we demonstrate that Δlog p more effectively identifies sparse, yet reasoning-critical updates than magnitude-based metrics (\eg divergence or entropy). Building on this insight, we propose two practical applications: (1) a test-time extrapolation method that amplifies the policy along the learned Δlog p direction to improve reasoning accuracy without further training; (2) a training-time reweighting method that focuses learning on low-probability (corresponding to higher Δlog p) tokens, which improves reasoning performance across models and benchmarks. Our work establishes the direction of change as a key principle for analyzing and improving RLVR.

Sulla Direzione degli Aggiornamenti RLVR per il Ragionamento nei LLM: Identificazione e Sfruttamento

On the Direction of RLVR Updates for LLM Reasoning: Identification and Exploitation

Abstract

Support