Эффективное обучение RLVR с помощью взвешенного отбора данных на основе взаимной информации

Аннотация

Обучение с подкреплением (ОП) играет ключевую роль в улучшении способности к рассуждению и согласованности больших языковых моделей, однако его эффективность критически зависит от выбора обучающих данных. Существующие стратегии онлайн-отбора в основном опираются на эвристики, основанные на сложности, отдавая предпочтение точкам данных с промежуточными показателями успеха, неявно отождествляя сложность с информативностью и пренебрегая эпистемической неопределенностью, возникающей из-за ограниченности данных. Мы представляем InSight — метод INформационно-управляемого отбора данных для обучения с подкреплением, основанный на задаче максимизации взвешенной взаимной информации. Моделируя исходы данных с помощью байесовских латентных показателей успеха, мы показываем, что ожидаемое снижение неопределенности раскладывается на взаимодополняющие компоненты, зависящие от сложности и объема данных, выявляя фундаментальное ограничение отбора, основанного только на сложности. Используя это наблюдение, InSight строит стабильную функцию полезности на основе среднего апостериорного ожидания успеха точек данных, а не зашумленных выборочных исходов, и естественным образом обобщается на сценарии с множественными прогонами, типичные для обучения с подкреплением с верифицируемыми вознаграждениями. Многочисленные эксперименты демонстрируют, что InSight стабильно достигает наилучших результатов и повышает эффективность обучения, включая средний прирост на +1.41 по тестам на планирование и математику, улучшение на +1.01 по общим рассуждениям и ускорение обучения до ~2.2 раз при незначительных дополнительных вычислительных затратах.

English

Reinforcement learning (RL) plays a central role in improving the reasoning and alignment of large language models, yet its efficiency critically depends on how training data are selected. Existing online selection strategies predominantly rely on difficulty-based heuristics, favouring datapoints with intermediate success rates, implicitly equating difficulty with informativeness and neglecting epistemic uncertainty arising from limited evidence. We introduce InSight, an INformation-guided data SamplInG metHod for RL Training, grounded in a weighted mutual information objective. By modeling data outcomes with Bayesian latent success rates, we show that expected uncertainty reduction decomposes into complementary difficulty- and evidence-dependent components, revealing a fundamental limitation of difficulty-only selection. Leveraging this observation, InSight constructs a stable acquisition score based on the mean belief of datapoints' success rather than noisy sampled outcomes, and naturally extends to multi-rollout settings common in reinforcement learning with verifiable rewards (RLVR). Extensive experiments demonstrate that InSight consistently achieves state-of-the-art performance and improves training efficiency, including a +1.41 average gain on Planning & Mathmatics benchmarks, +1.01 improvement on general reasoning, and up to ~2.2x acceleration, with negligible additional computational overhead.

Эффективное обучение RLVR с помощью взвешенного отбора данных на основе взаимной информации

Efficient RLVR Training via Weighted Mutual Information Data Selection

Аннотация

Support