Entrenamiento Eficiente de RLVR mediante Selección de Datos Basada en Información Mutua Ponderada

Resumen

El aprendizaje por refuerzo (RL) desempeña un papel central en la mejora del razonamiento y la alineación de los grandes modelos de lenguaje, pero su eficiencia depende críticamente de cómo se seleccionan los datos de entrenamiento. Las estrategias de selección en línea existentes se basan predominantemente en heurísticas basadas en la dificultad, favoreciendo puntos de datos con tasas de éxito intermedias, equiparando implícitamente la dificultad con la informatividad y descuidando la incertidumbre epistémica que surge de la evidencia limitada. Presentamos InSight, un método de muestreo de datos guiado por la INformación para el entrenamiento por refuerzo, basado en un objetivo de información mutua ponderada. Al modelar los resultados de los datos con tasas de éxito latentes bayesianas, demostramos que la reducción esperada de la incertidumbre se descompone en componentes complementarios dependientes de la dificultad y de la evidencia, revelando una limitación fundamental de la selección basada únicamente en la dificultad. Aprovechando esta observación, InSight construye una puntuación de adquisición estable basada en la creencia media del éxito de los puntos de datos en lugar de en resultados muestreados ruidosos, y se extiende naturalmente a entornos de múltiples ejecuciones comunes en el aprendizaje por refuerzo con recompensas verificables (RLVR). Experimentos exhaustivos demuestran que InSight logra consistentemente un rendimiento de vanguardia y mejora la eficiencia del entrenamiento, incluyendo una ganancia promedio de +1.41 en benchmarks de Planificación y Matemáticas, una mejora de +1.01 en razonamiento general, y una aceleración de hasta ~2.2x, con un overhead computacional adicional negligible.

English

Reinforcement learning (RL) plays a central role in improving the reasoning and alignment of large language models, yet its efficiency critically depends on how training data are selected. Existing online selection strategies predominantly rely on difficulty-based heuristics, favouring datapoints with intermediate success rates, implicitly equating difficulty with informativeness and neglecting epistemic uncertainty arising from limited evidence. We introduce InSight, an INformation-guided data SamplInG metHod for RL Training, grounded in a weighted mutual information objective. By modeling data outcomes with Bayesian latent success rates, we show that expected uncertainty reduction decomposes into complementary difficulty- and evidence-dependent components, revealing a fundamental limitation of difficulty-only selection. Leveraging this observation, InSight constructs a stable acquisition score based on the mean belief of datapoints' success rather than noisy sampled outcomes, and naturally extends to multi-rollout settings common in reinforcement learning with verifiable rewards (RLVR). Extensive experiments demonstrate that InSight consistently achieves state-of-the-art performance and improves training efficiency, including a +1.41 average gain on Planning & Mathmatics benchmarks, +1.01 improvement on general reasoning, and up to ~2.2x acceleration, with negligible additional computational overhead.

Entrenamiento Eficiente de RLVR mediante Selección de Datos Basada en Información Mutua Ponderada

Efficient RLVR Training via Weighted Mutual Information Data Selection

Resumen

Support