오프-폴리시 영향력 안내를 통한 데이터 효율적 RLVR
Data-Efficient RLVR via Off-Policy Influence Guidance
October 30, 2025
저자: Erle Zhu, Dazhi Jiang, Yuan Wang, Xujun Li, Jiale Cheng, Yuxian Gu, Yilin Niu, Aohan Zeng, Jie Tang, Minlie Huang, Hongning Wang
cs.AI
초록
검증 가능한 보상 강화학습(RLVR)에서 데이터 선택은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 핵심 요소입니다. 기존 데이터 선택 방법은 주로 경험적 기반으로, 이론적 보장과 일반화 가능성이 부족합니다. 본 연구는 영향 함수를 활용하여 각 데이터 포인트가 학습 목표에 기여하는 정도를 이론적으로 추정하는 방법을 제안합니다. 온라인 영향 추정에 필요한 정책 롤아웃의 과도한 계산 비용 문제를 해결하기 위해, 사전 수집된 오프라인 궤적을 활용하여 데이터 영향을 효율적으로 근사하는 오프-정책 영향 추정 기법을 도입합니다. 또한 LLM의 고차원 기울기 문제를 관리하기 위해 희소 랜덤 프로젝션을 사용하여 차원을 축소하고 저장 및 계산 효율성을 개선합니다. 이러한 기술을 바탕으로, 현재 정책에 가장 영향력 있는 데이터를 반복적으로 선택하는 다단계 RL 프레임워크인 CROPI(Curriculum RL with Off-Policy Influence guidance)를 개발했습니다. 70억 파라미터 규모의 모델 실험에서 CROPI는 학습 속도를 크게 가속화했으며, 15억 파라미터 모델에서는 전체 데이터셋 학습 대비 단계별 2.66배의 가속화를 달성하면서 각 단계마다 데이터의 10%만 사용했습니다. 본 결과는 효율적인 RLVR을 위한 영향 기반 데이터 선택의 상당한 잠재력을 입증합니다.
English
Data selection is a critical aspect of Reinforcement Learning with Verifiable
Rewards (RLVR) for enhancing the reasoning capabilities of large language
models (LLMs). Current data selection methods are largely heuristic-based,
lacking theoretical guarantees and generalizability. This work proposes a
theoretically-grounded approach using influence functions to estimate the
contribution of each data point to the learning objective. To overcome the
prohibitive computational cost of policy rollouts required for online influence
estimation, we introduce an off-policy influence estimation method that
efficiently approximates data influence using pre-collected offline
trajectories. Furthermore, to manage the high-dimensional gradients of LLMs, we
employ sparse random projection to reduce dimensionality and improve storage
and computation efficiency. Leveraging these techniques, we develop
Curriculum RL with Off-Policy
Influence guidance (CROPI), a multi-stage RL framework that
iteratively selects the most influential data for the current policy.
Experiments on models up to 7B parameters demonstrate that CROPI significantly
accelerates training. On a 1.5B model, it achieves a 2.66x step-level
acceleration while using only 10\% of the data per stage compared to
full-dataset training. Our results highlight the substantial potential of
influence-based data selection for efficient RLVR.