Effizientes RLVR-Training durch gewichtete Mutual-Information-Datenselektion

Zusammenfassung

Verstärkendes Lernen (RL) spielt eine zentrale Rolle bei der Verbesserung der Denkfähigkeiten und Ausrichtung großer Sprachmodelle, doch seine Effizienz hängt entscheidend von der Auswahl der Trainingsdaten ab. Bestehende Online-Auswahlstrategien stützen sich überwiegend auf schwierigkeitsbasierte Heuristiken, begünstigen Datenpunkte mit mittleren Erfolgsquoten und setzen Schwierigkeit implizit mit Informationsgehalt gleich, wodurch die epistemische Unsicherheit aufgrund begrenzter Evidenz vernachlässigt wird. Wir stellen InSight vor, eine INformationsgesteuerte Datenauswahlmethode für das RL-Training, die auf einem gewichteten Mutual-Information-Ziel basiert. Indem wir Datenresultate mit bayesschen latenten Erfolgsraten modellieren, zeigen wir, dass die erwartete Unsicherheitsreduktion sich in komplementäre, schwierigkeits- und evidenzabhängige Komponenten zerlegen lässt, was eine grundlegende Beschränkung rein schwierigkeitsbasierter Auswahl offenbart. Gestützt auf diese Erkenntnis konstruiert InSight einen stabilen Akquisitionsscore basierend auf der mittleren Erwartung der Erfolgsrate von Datenpunkten anstelle von verrauschten Stichprobenergebnissen und erweitert sich natürlich auf Multi-Rollout-Szenarien, die bei Verstärkendem Lernen mit verifizierbaren Belohnungen (RLVR) üblich sind. Umfangreiche Experimente belegen, dass InSight durchgängig state-of-the-art Leistung erzielt und die Trainingseffizienz steigert, einschließlich eines durchschnittlichen Zugewinns von +1,41 auf Planungs- und Mathematik-Benchmarks, einer Verbesserung von +1,01 beim allgemeinen logischen Denken und einer bis zu ~2,2-fachen Beschleunigung, bei vernachlässigbarem zusätzlichem Rechenaufwand.

English

Reinforcement learning (RL) plays a central role in improving the reasoning and alignment of large language models, yet its efficiency critically depends on how training data are selected. Existing online selection strategies predominantly rely on difficulty-based heuristics, favouring datapoints with intermediate success rates, implicitly equating difficulty with informativeness and neglecting epistemic uncertainty arising from limited evidence. We introduce InSight, an INformation-guided data SamplInG metHod for RL Training, grounded in a weighted mutual information objective. By modeling data outcomes with Bayesian latent success rates, we show that expected uncertainty reduction decomposes into complementary difficulty- and evidence-dependent components, revealing a fundamental limitation of difficulty-only selection. Leveraging this observation, InSight constructs a stable acquisition score based on the mean belief of datapoints' success rather than noisy sampled outcomes, and naturally extends to multi-rollout settings common in reinforcement learning with verifiable rewards (RLVR). Extensive experiments demonstrate that InSight consistently achieves state-of-the-art performance and improves training efficiency, including a +1.41 average gain on Planning & Mathmatics benchmarks, +1.01 improvement on general reasoning, and up to ~2.2x acceleration, with negligible additional computational overhead.

Effizientes RLVR-Training durch gewichtete Mutual-Information-Datenselektion

Efficient RLVR Training via Weighted Mutual Information Data Selection

Zusammenfassung

Support