Data-Efficiënt RLVR via Off-Policy Invloedbegeleiding
Data-Efficient RLVR via Off-Policy Influence Guidance
October 30, 2025
Auteurs: Erle Zhu, Dazhi Jiang, Yuan Wang, Xujun Li, Jiale Cheng, Yuxian Gu, Yilin Niu, Aohan Zeng, Jie Tang, Minlie Huang, Hongning Wang
cs.AI
Samenvatting
Dataselectie is een cruciaal aspect van Reinforcement Learning met Verifieerbare Beloningen (RLVR) voor het verbeteren van de redeneervaardigheden van grote taalmmodellen (LLM's). Huidige dataselectiemethoden zijn grotendeels gebaseerd op heuristieken, zonder theoretische garanties en generaliseerbaarheid. Dit werk stelt een theoretisch onderbouwde aanpak voor die invloedsfuncties gebruikt om de bijdrage van elk datapunt aan het leerdoel te schatten. Om de buitensporige rekenkosten van policy rollouts die nodig zijn voor online invloedsschatting te omzeilen, introduceren we een off-policy invloedsschattingmethode die de datainvloed efficiënt benadert met behulp van vooraf verzamelde offline trajecten. Verder gebruiken we, om de hoogdimensionale gradiënten van LLM's te beheren, sparse random projection om de dimensionaliteit te verminderen en de opslag- en reken efficiëntie te verbeteren. Door gebruik te maken van deze technieken ontwikkelen we Curriculum RL met Off-Policy Invloedsbegeleiding (CROPI), een meerfasig RL-raamwerk dat iteratief de meest invloedrijke data selecteert voor het huidige beleid. Experimenten met modellen tot 7B parameters tonen aan dat CROPI de training aanzienlijk versnelt. Op een 1.5B-model bereikt het een 2.66x versnelling op stapniveau terwijl het slechts 10% van de data per fase gebruikt in vergelijking met training op de volledige dataset. Onze resultaten benadrukken het aanzienlijke potentieel van op invloed gebaseerde dataselectie voor efficiënte RLVR.
English
Data selection is a critical aspect of Reinforcement Learning with Verifiable
Rewards (RLVR) for enhancing the reasoning capabilities of large language
models (LLMs). Current data selection methods are largely heuristic-based,
lacking theoretical guarantees and generalizability. This work proposes a
theoretically-grounded approach using influence functions to estimate the
contribution of each data point to the learning objective. To overcome the
prohibitive computational cost of policy rollouts required for online influence
estimation, we introduce an off-policy influence estimation method that
efficiently approximates data influence using pre-collected offline
trajectories. Furthermore, to manage the high-dimensional gradients of LLMs, we
employ sparse random projection to reduce dimensionality and improve storage
and computation efficiency. Leveraging these techniques, we develop
Curriculum RL with Off-Policy
Influence guidance (CROPI), a multi-stage RL framework that
iteratively selects the most influential data for the current policy.
Experiments on models up to 7B parameters demonstrate that CROPI significantly
accelerates training. On a 1.5B model, it achieves a 2.66x step-level
acceleration while using only 10\% of the data per stage compared to
full-dataset training. Our results highlight the substantial potential of
influence-based data selection for efficient RLVR.