Efficiënte RLVR-training via gewogen wederzijdse informatie voor gegevensselectie

Samenvatting

Versterkend leren (RL) speelt een centrale rol bij het verbeteren van het redeneervermogen en de afstemming van grote taalmodel(len), maar de efficiëntie ervan hangt cruciaal af van de selectie van trainingsgegevens. Bestaande online selectiestrategieën zijn voornamelijk gebaseerd op moeilijkheidsheuristieken, waarbij de voorkeur uitgaat naar datapunten met intermediaire slagingspercentages. Hierbij wordt moeilijkheid impliciet gelijkgesteld aan informatiewaarde en wordt epistemische onzekerheid als gevolg van beperkte evidentie verwaarloosd. Wij introduceren InSight, een INformatie-gestuurde data-Samplingsmethode voor RL-training, gebaseerd op een gewogen wederzijds informatie-doelstelling. Door data-uitkomsten te modelleren met Bayesiaanse latente slagingspercentages, tonen we aan dat verwachte onzekerheidsreductie zich ontbindt in complementaire, moeilijkheids- en evidentie-afhankelijke componenten, wat een fundamentele beperking van uitsluitend op moeilijkheid gebaseerde selectie blootlegt. Gebruikmakend van deze observatie construeert InSight een stabiele acquisitiescore op basis van het gemiddelde geloof in het succes van datapunten in plaats van op lawaaierige, bemonsterde uitkomsten, en breidt het zich natuurlijk uit naar multi-rollout instellingen die gebruikelijk zijn in reinforcement learning met verifieerbare beloningen (RLVR). Uitgebreide experimenten tonen aan dat InSight consistent state-of-the-art prestaties levert en de trainingsefficiëntie verbetert, waaronder een gemiddelde winst van +1.41 op Planning & Wiskunde benchmarks, een verbetering van +1.01 op algemeen redeneren, en een versnelling tot ~2.2x, met verwaarloosbare extra computationele overhead.

English

Reinforcement learning (RL) plays a central role in improving the reasoning and alignment of large language models, yet its efficiency critically depends on how training data are selected. Existing online selection strategies predominantly rely on difficulty-based heuristics, favouring datapoints with intermediate success rates, implicitly equating difficulty with informativeness and neglecting epistemic uncertainty arising from limited evidence. We introduce InSight, an INformation-guided data SamplInG metHod for RL Training, grounded in a weighted mutual information objective. By modeling data outcomes with Bayesian latent success rates, we show that expected uncertainty reduction decomposes into complementary difficulty- and evidence-dependent components, revealing a fundamental limitation of difficulty-only selection. Leveraging this observation, InSight constructs a stable acquisition score based on the mean belief of datapoints' success rather than noisy sampled outcomes, and naturally extends to multi-rollout settings common in reinforcement learning with verifiable rewards (RLVR). Extensive experiments demonstrate that InSight consistently achieves state-of-the-art performance and improves training efficiency, including a +1.41 average gain on Planning & Mathmatics benchmarks, +1.01 improvement on general reasoning, and up to ~2.2x acceleration, with negligible additional computational overhead.

Efficiënte RLVR-training via gewogen wederzijdse informatie voor gegevensselectie

Efficient RLVR Training via Weighted Mutual Information Data Selection

Samenvatting

Support