ChatPaper.aiChatPaper

Data-Efficiënt RLVR via Off-Policy Invloedbegeleiding

Data-Efficient RLVR via Off-Policy Influence Guidance

October 30, 2025
Auteurs: Erle Zhu, Dazhi Jiang, Yuan Wang, Xujun Li, Jiale Cheng, Yuxian Gu, Yilin Niu, Aohan Zeng, Jie Tang, Minlie Huang, Hongning Wang
cs.AI

Samenvatting

Dataselectie is een cruciaal aspect van Reinforcement Learning met Verifieerbare Beloningen (RLVR) voor het verbeteren van de redeneervaardigheden van grote taalmmodellen (LLM's). Huidige dataselectiemethoden zijn grotendeels gebaseerd op heuristieken, zonder theoretische garanties en generaliseerbaarheid. Dit werk stelt een theoretisch onderbouwde aanpak voor die invloedsfuncties gebruikt om de bijdrage van elk datapunt aan het leerdoel te schatten. Om de buitensporige rekenkosten van policy rollouts die nodig zijn voor online invloedsschatting te omzeilen, introduceren we een off-policy invloedsschattingmethode die de datainvloed efficiënt benadert met behulp van vooraf verzamelde offline trajecten. Verder gebruiken we, om de hoogdimensionale gradiënten van LLM's te beheren, sparse random projection om de dimensionaliteit te verminderen en de opslag- en reken efficiëntie te verbeteren. Door gebruik te maken van deze technieken ontwikkelen we Curriculum RL met Off-Policy Invloedsbegeleiding (CROPI), een meerfasig RL-raamwerk dat iteratief de meest invloedrijke data selecteert voor het huidige beleid. Experimenten met modellen tot 7B parameters tonen aan dat CROPI de training aanzienlijk versnelt. Op een 1.5B-model bereikt het een 2.66x versnelling op stapniveau terwijl het slechts 10% van de data per fase gebruikt in vergelijking met training op de volledige dataset. Onze resultaten benadrukken het aanzienlijke potentieel van op invloed gebaseerde dataselectie voor efficiënte RLVR.
English
Data selection is a critical aspect of Reinforcement Learning with Verifiable Rewards (RLVR) for enhancing the reasoning capabilities of large language models (LLMs). Current data selection methods are largely heuristic-based, lacking theoretical guarantees and generalizability. This work proposes a theoretically-grounded approach using influence functions to estimate the contribution of each data point to the learning objective. To overcome the prohibitive computational cost of policy rollouts required for online influence estimation, we introduce an off-policy influence estimation method that efficiently approximates data influence using pre-collected offline trajectories. Furthermore, to manage the high-dimensional gradients of LLMs, we employ sparse random projection to reduce dimensionality and improve storage and computation efficiency. Leveraging these techniques, we develop Curriculum RL with Off-Policy Influence guidance (CROPI), a multi-stage RL framework that iteratively selects the most influential data for the current policy. Experiments on models up to 7B parameters demonstrate that CROPI significantly accelerates training. On a 1.5B model, it achieves a 2.66x step-level acceleration while using only 10\% of the data per stage compared to full-dataset training. Our results highlight the substantial potential of influence-based data selection for efficient RLVR.
PDF92December 2, 2025