ChatPaper.aiChatPaper

Daten-effizientes RLVR durch Off-Policy-Einflussführung

Data-Efficient RLVR via Off-Policy Influence Guidance

October 30, 2025
papers.authors: Erle Zhu, Dazhi Jiang, Yuan Wang, Xujun Li, Jiale Cheng, Yuxian Gu, Yilin Niu, Aohan Zeng, Jie Tang, Minlie Huang, Hongning Wang
cs.AI

papers.abstract

Die Datenauswahl ist ein entscheidender Aspekt von Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) zur Verbesserung der Reasoning-Fähigkeiten großer Sprachmodelle (LLMs). Bisherige Datenauswahlmethoden sind überwiegend heuristisch basiert und entbehren theoretischer Garantien sowie Generalisierbarkeit. Diese Arbeit schlägt einen theoretisch fundierten Ansatz vor, der Einflussfunktionen nutzt, um den Beitrag jedes Datenpunktes zum Lernziel abzuschätzen. Um den prohibitiv hohen Rechenaufwand von Policy-Rollouts für Online-Einflussabschätzungen zu überwinden, führen wir eine Off-Policy-Einflussabschätzung ein, die den Dateneinfluss effizient mittels vorab gesammelter Offline-Trajektorien approximiert. Zudem verwenden wir zur Handhabung der hochdimensionalen Gradienten von LLMs sparse Random Projection, um die Dimensionalität zu reduzieren und die Speicher- und Recheneffizienz zu steigern. Aufbauend auf diesen Techniken entwickeln wir Curriculum RL with Off-Policy Influence guidance (CROPI), ein mehrstufiges RL-Framework, das iterativ die einflussreichsten Daten für die aktuelle Policy auswählt. Experimente mit Modellen bis zu 7B Parametern zeigen, dass CROPI das Training erheblich beschleunigt. Bei einem 1,5B-Modell erreicht es eine 2,66-fache Beschleunigung auf Schrittebene, wobei pro Stufe nur 10 % der Daten im Vergleich zum Training mit dem vollständigen Datensatz verwendet werden. Unsere Ergebnisse unterstreichen das beträchtliche Potenzial einflussbasierter Datenauswahl für effizientes RLVR.
English
Data selection is a critical aspect of Reinforcement Learning with Verifiable Rewards (RLVR) for enhancing the reasoning capabilities of large language models (LLMs). Current data selection methods are largely heuristic-based, lacking theoretical guarantees and generalizability. This work proposes a theoretically-grounded approach using influence functions to estimate the contribution of each data point to the learning objective. To overcome the prohibitive computational cost of policy rollouts required for online influence estimation, we introduce an off-policy influence estimation method that efficiently approximates data influence using pre-collected offline trajectories. Furthermore, to manage the high-dimensional gradients of LLMs, we employ sparse random projection to reduce dimensionality and improve storage and computation efficiency. Leveraging these techniques, we develop Curriculum RL with Off-Policy Influence guidance (CROPI), a multi-stage RL framework that iteratively selects the most influential data for the current policy. Experiments on models up to 7B parameters demonstrate that CROPI significantly accelerates training. On a 1.5B model, it achieves a 2.66x step-level acceleration while using only 10\% of the data per stage compared to full-dataset training. Our results highlight the substantial potential of influence-based data selection for efficient RLVR.
PDF102January 19, 2026