ChatPaper.aiChatPaper

오프-폴리시 영향력 안내를 통한 데이터 효율적 RLVR

Data-Efficient RLVR via Off-Policy Influence Guidance

October 30, 2025
저자: Erle Zhu, Dazhi Jiang, Yuan Wang, Xujun Li, Jiale Cheng, Yuxian Gu, Yilin Niu, Aohan Zeng, Jie Tang, Minlie Huang, Hongning Wang
cs.AI

초록

검증 가능한 보상 강화학습(RLVR)에서 데이터 선택은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 핵심 요소입니다. 기존 데이터 선택 방법은 주로 경험적 기반으로, 이론적 보장과 일반화 가능성이 부족합니다. 본 연구는 영향 함수를 활용하여 각 데이터 포인트가 학습 목표에 기여하는 정도를 이론적으로 추정하는 방법을 제안합니다. 온라인 영향 추정에 필요한 정책 롤아웃의 과도한 계산 비용 문제를 해결하기 위해, 사전 수집된 오프라인 궤적을 활용하여 데이터 영향을 효율적으로 근사하는 오프-정책 영향 추정 기법을 도입합니다. 또한 LLM의 고차원 기울기 문제를 관리하기 위해 희소 랜덤 프로젝션을 사용하여 차원을 축소하고 저장 및 계산 효율성을 개선합니다. 이러한 기술을 바탕으로, 현재 정책에 가장 영향력 있는 데이터를 반복적으로 선택하는 다단계 RL 프레임워크인 CROPI(Curriculum RL with Off-Policy Influence guidance)를 개발했습니다. 70억 파라미터 규모의 모델 실험에서 CROPI는 학습 속도를 크게 가속화했으며, 15억 파라미터 모델에서는 전체 데이터셋 학습 대비 단계별 2.66배의 가속화를 달성하면서 각 단계마다 데이터의 10%만 사용했습니다. 본 결과는 효율적인 RLVR을 위한 영향 기반 데이터 선택의 상당한 잠재력을 입증합니다.
English
Data selection is a critical aspect of Reinforcement Learning with Verifiable Rewards (RLVR) for enhancing the reasoning capabilities of large language models (LLMs). Current data selection methods are largely heuristic-based, lacking theoretical guarantees and generalizability. This work proposes a theoretically-grounded approach using influence functions to estimate the contribution of each data point to the learning objective. To overcome the prohibitive computational cost of policy rollouts required for online influence estimation, we introduce an off-policy influence estimation method that efficiently approximates data influence using pre-collected offline trajectories. Furthermore, to manage the high-dimensional gradients of LLMs, we employ sparse random projection to reduce dimensionality and improve storage and computation efficiency. Leveraging these techniques, we develop Curriculum RL with Off-Policy Influence guidance (CROPI), a multi-stage RL framework that iteratively selects the most influential data for the current policy. Experiments on models up to 7B parameters demonstrate that CROPI significantly accelerates training. On a 1.5B model, it achieves a 2.66x step-level acceleration while using only 10\% of the data per stage compared to full-dataset training. Our results highlight the substantial potential of influence-based data selection for efficient RLVR.
PDF102January 19, 2026