Addestramento Efficiente di RLVR tramite Selezione dei Dati Basata sull'Informazione Mutua Pesata

Abstract

L'apprendimento per rinforzo (RL) ricopre un ruolo centrale nel migliorare il ragionamento e l'allineamento dei grandi modelli linguistici, ma la sua efficienza dipende criticamente da come vengono selezionati i dati di addestramento. Le strategie di selezione online esistenti si basano prevalentemente su euristiche legate alla difficoltà, favorendo i punti dati con tassi di successo intermedi, equiparando implicitamente la difficoltà al contenuto informativo e trascurando l'incertezza epistemica derivante da evidenze limitate. Introduciamo InSight, un metodo di CAMPionamento dei dati GUIDato dall'INformazione per l'addestramento RL, basato su un obiettivo di informazione mutua pesata. Modellando gli esiti dei dati con tassi di successo latenti bayesiani, dimostriamo che la riduzione attesa dell'incertezza si scompone in componenti complementari dipendenti dalla difficoltà e dall'evidenza, rivelando una limitazione fondamentale della selezione basata solo sulla difficoltà. Sfruttando questa osservazione, InSight costruisce un punteggio di acquisizione stabile basato sulla credenza media del successo dei punti dati piuttosto che su esiti campionati rumorosi, e si estende naturalmente a contesti multi-rollout comuni nell'apprendimento per rinforzo con ricompense verificabili (RLVR). Esperimenti estensivi dimostrano che InSight raggiunge costantemente prestazioni allo stato dell'arte e migliora l'efficienza dell'addestramento, inclusi un guadagno medio di +1,41 sui benchmark di Pianificazione e Matematica, un miglioramento di +1,01 sul ragionamento generale e un'accelerazione fino a ~2,2x, con un overhead computazionale aggiuntivo trascurabile.

English

Reinforcement learning (RL) plays a central role in improving the reasoning and alignment of large language models, yet its efficiency critically depends on how training data are selected. Existing online selection strategies predominantly rely on difficulty-based heuristics, favouring datapoints with intermediate success rates, implicitly equating difficulty with informativeness and neglecting epistemic uncertainty arising from limited evidence. We introduce InSight, an INformation-guided data SamplInG metHod for RL Training, grounded in a weighted mutual information objective. By modeling data outcomes with Bayesian latent success rates, we show that expected uncertainty reduction decomposes into complementary difficulty- and evidence-dependent components, revealing a fundamental limitation of difficulty-only selection. Leveraging this observation, InSight constructs a stable acquisition score based on the mean belief of datapoints' success rather than noisy sampled outcomes, and naturally extends to multi-rollout settings common in reinforcement learning with verifiable rewards (RLVR). Extensive experiments demonstrate that InSight consistently achieves state-of-the-art performance and improves training efficiency, including a +1.41 average gain on Planning & Mathmatics benchmarks, +1.01 improvement on general reasoning, and up to ~2.2x acceleration, with negligible additional computational overhead.

Addestramento Efficiente di RLVR tramite Selezione dei Dati Basata sull'Informazione Mutua Pesata

Efficient RLVR Training via Weighted Mutual Information Data Selection

Abstract

Support