Treinamento Eficiente de RLVR por meio de Seleção de Dados Baseada em Informação Mútua Ponderada

Resumo

O aprendizado por reforço (RL) desempenha um papel central na melhoria da capacidade de raciocínio e no alinhamento de grandes modelos de linguagem, mas sua eficiência depende criticamente de como os dados de treinamento são selecionados. As estratégias de seleção online existentes baseiam-se predominantemente em heurísticas baseadas em dificuldade, favorecendo pontos de dados com taxas de sucesso intermediárias, equiparando implicitamente dificuldade com informatividade e negligenciando a incerteza epistêmica decorrente de evidências limitadas. Apresentamos o InSight, um método de amostragem de dados guiado por informação para treinamento de RL, fundamentado em um objetivo de informação mútua ponderada. Ao modelar os resultados dos dados com taxas de sucesso latentes bayesianas, mostramos que a redução esperada da incerteza se decompõe em componentes complementares dependentes de dificuldade e de evidência, revelando uma limitação fundamental da seleção baseada apenas em dificuldade. Aproveitando essa observação, o InSight constrói uma pontuação de aquisição estável baseada na crença média do sucesso dos pontos de dados, em vez de resultados amostrados ruidosos, e se estende naturalmente para configurações de múltiplas execuções comuns no aprendizado por reforço com recompensas verificáveis (RLVR). Experimentos extensivos demonstram que o InSight alcança consistentemente desempenho de ponta e melhora a eficiência do treinamento, incluindo um ganho médio de +1,41 em benchmarks de Planejamento e Matemática, uma melhora de +1,01 no raciocínio geral e uma aceleração de até ~2,2x, com sobrecarga computacional adicional insignificante.

English

Reinforcement learning (RL) plays a central role in improving the reasoning and alignment of large language models, yet its efficiency critically depends on how training data are selected. Existing online selection strategies predominantly rely on difficulty-based heuristics, favouring datapoints with intermediate success rates, implicitly equating difficulty with informativeness and neglecting epistemic uncertainty arising from limited evidence. We introduce InSight, an INformation-guided data SamplInG metHod for RL Training, grounded in a weighted mutual information objective. By modeling data outcomes with Bayesian latent success rates, we show that expected uncertainty reduction decomposes into complementary difficulty- and evidence-dependent components, revealing a fundamental limitation of difficulty-only selection. Leveraging this observation, InSight constructs a stable acquisition score based on the mean belief of datapoints' success rather than noisy sampled outcomes, and naturally extends to multi-rollout settings common in reinforcement learning with verifiable rewards (RLVR). Extensive experiments demonstrate that InSight consistently achieves state-of-the-art performance and improves training efficiency, including a +1.41 average gain on Planning & Mathmatics benchmarks, +1.01 improvement on general reasoning, and up to ~2.2x acceleration, with negligible additional computational overhead.

Treinamento Eficiente de RLVR por meio de Seleção de Dados Baseada em Informação Mútua Ponderada

Efficient RLVR Training via Weighted Mutual Information Data Selection

Resumo

Support