RLVR Eficiente en Datos mediante Guía de Influencia Fuera de Política
Data-Efficient RLVR via Off-Policy Influence Guidance
October 30, 2025
Autores: Erle Zhu, Dazhi Jiang, Yuan Wang, Xujun Li, Jiale Cheng, Yuxian Gu, Yilin Niu, Aohan Zeng, Jie Tang, Minlie Huang, Hongning Wang
cs.AI
Resumen
La selección de datos es un aspecto crítico del Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) para mejorar las capacidades de razonamiento de los modelos de lenguaje grande (LLM). Los métodos actuales de selección de datos se basan en gran medida en heurísticas, careciendo de garantías teóricas y generalizabilidad. Este trabajo propone un enfoque con bases teóricas que utiliza funciones de influencia para estimar la contribución de cada punto de datos al objetivo de aprendizaje. Para superar el costo computacional prohibitivo de las simulaciones de políticas requeridas para la estimación de influencia en línea, introducimos un método de estimación de influencia fuera de la política que aproxima eficientemente la influencia de los datos utilizando trayectorias fuera de línea previamente recolectadas. Además, para manejar los gradientes de alta dimensionalidad de los LLM, empleamos proyección aleatoria dispersa para reducir la dimensionalidad y mejorar la eficiencia de almacenamiento y cómputo. Aprovechando estas técnicas, desarrollamos Aprendizaje por Refuerzo Curricular con Guía de Influencia Fuera de la Política (CROPI), un marco de RL multietapa que selecciona iterativamente los datos más influyentes para la política actual. Experimentos en modelos de hasta 7 mil millones de parámetros demuestran que CROPI acelera significativamente el entrenamiento. En un modelo de 1.5 mil millones, logra una aceleración a nivel de pasos de 2.66x mientras utiliza solo el 10% de los datos por etapa en comparación con el entrenamiento con el conjunto de datos completo. Nuestros resultados destacan el potencial sustancial de la selección de datos basada en influencia para un RLVR eficiente.
English
Data selection is a critical aspect of Reinforcement Learning with Verifiable
Rewards (RLVR) for enhancing the reasoning capabilities of large language
models (LLMs). Current data selection methods are largely heuristic-based,
lacking theoretical guarantees and generalizability. This work proposes a
theoretically-grounded approach using influence functions to estimate the
contribution of each data point to the learning objective. To overcome the
prohibitive computational cost of policy rollouts required for online influence
estimation, we introduce an off-policy influence estimation method that
efficiently approximates data influence using pre-collected offline
trajectories. Furthermore, to manage the high-dimensional gradients of LLMs, we
employ sparse random projection to reduce dimensionality and improve storage
and computation efficiency. Leveraging these techniques, we develop
Curriculum RL with Off-Policy
Influence guidance (CROPI), a multi-stage RL framework that
iteratively selects the most influential data for the current policy.
Experiments on models up to 7B parameters demonstrate that CROPI significantly
accelerates training. On a 1.5B model, it achieves a 2.66x step-level
acceleration while using only 10\% of the data per stage compared to
full-dataset training. Our results highlight the substantial potential of
influence-based data selection for efficient RLVR.