Entraînement efficace du RLVR par sélection de données basée sur l'information mutuelle pondérée

Résumé

L'apprentissage par renforcement (RL) joue un rôle central dans l'amélioration des capacités de raisonnement et de l'alignement des grands modèles de langage, mais son efficacité dépend de manière cruciale de la sélection des données d'entraînement. Les stratégies de sélection en ligne existantes reposent principalement sur des heuristiques basées sur la difficulté, favorisant les points de données présentant des taux de réussite intermédiaires, équivalant implicitement la difficulté à l'informativité et négligeant l'incertitude épistémique résultant de preuves limitées. Nous présentons InSight, une méthode de sélection de données guidée par l'INformation pour l'entraînement par renforcement, fondée sur un objectif d'information mutuelle pondérée. En modélisant les résultats des données par des taux de réussite latents bayésiens, nous montrons que la réduction d'incertitude attendue se décompose en composantes complémentaires dépendantes de la difficulté et des preuves, révélant une limitation fondamentale de la sélection basée uniquement sur la difficulté. En tirant parti de cette observation, InSight construit un score d'acquisition stable basé sur la croyance moyenne du succès des points de données plutôt que sur des résultats échantillonnés bruités, et s'étend naturellement aux configurations multi-évaluations courantes dans l'apprentissage par renforcement avec récompenses vérifiables (RLVR). Des expériences approfondies démontrent qu'InSight atteint constamment des performances à l'état de l'art et améliore l'efficacité de l'entraînement, notamment un gain moyen de +1,41 sur les benchmarks de Planification et Mathématiques, une amélioration de +1,01 sur le raisonnement général, et une accélération allant jusqu'à ~2,2x, avec une surcharge computationnelle supplémentaire négligeable.

English

Reinforcement learning (RL) plays a central role in improving the reasoning and alignment of large language models, yet its efficiency critically depends on how training data are selected. Existing online selection strategies predominantly rely on difficulty-based heuristics, favouring datapoints with intermediate success rates, implicitly equating difficulty with informativeness and neglecting epistemic uncertainty arising from limited evidence. We introduce InSight, an INformation-guided data SamplInG metHod for RL Training, grounded in a weighted mutual information objective. By modeling data outcomes with Bayesian latent success rates, we show that expected uncertainty reduction decomposes into complementary difficulty- and evidence-dependent components, revealing a fundamental limitation of difficulty-only selection. Leveraging this observation, InSight constructs a stable acquisition score based on the mean belief of datapoints' success rather than noisy sampled outcomes, and naturally extends to multi-rollout settings common in reinforcement learning with verifiable rewards (RLVR). Extensive experiments demonstrate that InSight consistently achieves state-of-the-art performance and improves training efficiency, including a +1.41 average gain on Planning & Mathmatics benchmarks, +1.01 improvement on general reasoning, and up to ~2.2x acceleration, with negligible additional computational overhead.

Entraînement efficace du RLVR par sélection de données basée sur l'information mutuelle pondérée

Efficient RLVR Training via Weighted Mutual Information Data Selection

Résumé

Support