Over de Richting van RLVR-updates voor LLM-redenering: Identificatie en Exploitatie

Samenvatting

Versterkend leren met verifieerbare beloningen (RLVR) heeft het redeneervermogen van grote taalmodellen aanzienlijk verbeterd. Hoewel bestaande analyses aantonen dat RLVR-geïnduceerde veranderingen spaarzaam zijn, richten ze zich voornamelijk op de omvang van deze updates en negeren ze grotendeels hun richting. In dit werk beargumenteren we dat de richting van de updates een kritischer perspectief biedt om de effecten van RLVR te begrijpen, wat kan worden vastgelegd door het getekende, token-niveau log-kansverschil Δlog p tussen het basis- en het uiteindelijke RLVR-model. Door middel van statistische analyse en token-vervangingsinterventies tonen we aan dat Δlog p effectiever spaarzame, maar voor redenering cruciale updates identificeert dan op grootte gebaseerde metrieken (bijv. divergentie of entropie). Voortbouwend op dit inzicht stellen we twee praktische toepassingen voor: (1) een extrapolatiemethode tijdens het testen die het beleid versterkt langs de geleerde Δlog p-richting om de redeneernauwkeurigheid te verbeteren zonder verdere training; (2) een herwegingmethode tijdens de training die het leren concentreert op tokens met een lage kans (overeenkomend met een hogere Δlog p), wat de redeneerprestaties verbetert over verschillende modellen en benchmarks heen. Ons werk vestigt de richting van verandering als een sleutelprincipe voor het analyseren en verbeteren van RLVR.

English

Reinforcement learning with verifiable rewards (RLVR) has substantially improved the reasoning capabilities of large language models. While existing analyses identify that RLVR-induced changes are sparse, they primarily focus on the magnitude of these updates, largely overlooking their direction. In this work, we argue that the direction of updates is a more critical lens for understanding RLVR's effects, which can be captured by the signed, token-level log probability difference Δlog p between the base and final RLVR models. Through statistical analysis and token-replacement interventions, we demonstrate that Δlog p more effectively identifies sparse, yet reasoning-critical updates than magnitude-based metrics (\eg divergence or entropy). Building on this insight, we propose two practical applications: (1) a test-time extrapolation method that amplifies the policy along the learned Δlog p direction to improve reasoning accuracy without further training; (2) a training-time reweighting method that focuses learning on low-probability (corresponding to higher Δlog p) tokens, which improves reasoning performance across models and benchmarks. Our work establishes the direction of change as a key principle for analyzing and improving RLVR.

Over de Richting van RLVR-updates voor LLM-redenering: Identificatie en Exploitatie

On the Direction of RLVR Updates for LLM Reasoning: Identification and Exploitation

Samenvatting

Support