Daten-effizientes RLVR durch Off-Policy-Einflussführung
Data-Efficient RLVR via Off-Policy Influence Guidance
October 30, 2025
papers.authors: Erle Zhu, Dazhi Jiang, Yuan Wang, Xujun Li, Jiale Cheng, Yuxian Gu, Yilin Niu, Aohan Zeng, Jie Tang, Minlie Huang, Hongning Wang
cs.AI
papers.abstract
Die Datenauswahl ist ein entscheidender Aspekt von Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) zur Verbesserung der Reasoning-Fähigkeiten großer Sprachmodelle (LLMs). Bisherige Datenauswahlmethoden sind überwiegend heuristisch basiert und entbehren theoretischer Garantien sowie Generalisierbarkeit. Diese Arbeit schlägt einen theoretisch fundierten Ansatz vor, der Einflussfunktionen nutzt, um den Beitrag jedes Datenpunktes zum Lernziel abzuschätzen. Um den prohibitiv hohen Rechenaufwand von Policy-Rollouts für Online-Einflussabschätzungen zu überwinden, führen wir eine Off-Policy-Einflussabschätzung ein, die den Dateneinfluss effizient mittels vorab gesammelter Offline-Trajektorien approximiert. Zudem verwenden wir zur Handhabung der hochdimensionalen Gradienten von LLMs sparse Random Projection, um die Dimensionalität zu reduzieren und die Speicher- und Recheneffizienz zu steigern. Aufbauend auf diesen Techniken entwickeln wir Curriculum RL with Off-Policy Influence guidance (CROPI), ein mehrstufiges RL-Framework, das iterativ die einflussreichsten Daten für die aktuelle Policy auswählt. Experimente mit Modellen bis zu 7B Parametern zeigen, dass CROPI das Training erheblich beschleunigt. Bei einem 1,5B-Modell erreicht es eine 2,66-fache Beschleunigung auf Schrittebene, wobei pro Stufe nur 10 % der Daten im Vergleich zum Training mit dem vollständigen Datensatz verwendet werden. Unsere Ergebnisse unterstreichen das beträchtliche Potenzial einflussbasierter Datenauswahl für effizientes RLVR.
English
Data selection is a critical aspect of Reinforcement Learning with Verifiable
Rewards (RLVR) for enhancing the reasoning capabilities of large language
models (LLMs). Current data selection methods are largely heuristic-based,
lacking theoretical guarantees and generalizability. This work proposes a
theoretically-grounded approach using influence functions to estimate the
contribution of each data point to the learning objective. To overcome the
prohibitive computational cost of policy rollouts required for online influence
estimation, we introduce an off-policy influence estimation method that
efficiently approximates data influence using pre-collected offline
trajectories. Furthermore, to manage the high-dimensional gradients of LLMs, we
employ sparse random projection to reduce dimensionality and improve storage
and computation efficiency. Leveraging these techniques, we develop
Curriculum RL with Off-Policy
Influence guidance (CROPI), a multi-stage RL framework that
iteratively selects the most influential data for the current policy.
Experiments on models up to 7B parameters demonstrate that CROPI significantly
accelerates training. On a 1.5B model, it achieves a 2.66x step-level
acceleration while using only 10\% of the data per stage compared to
full-dataset training. Our results highlight the substantial potential of
influence-based data selection for efficient RLVR.