Reinforce-Ada: Un Marco de Muestreo Adaptativo para el Entrenamiento de LLM al Estilo Reinforce
Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training
October 6, 2025
Autores: Wei Xiong, Chenlu Ye, Baohao Liao, Hanze Dong, Xinxing Xu, Christof Monz, Jiang Bian, Nan Jiang, Tong Zhang
cs.AI
Resumen
El aprendizaje por refuerzo aplicado a modelos de lenguaje de gran escala (LLMs) para tareas de razonamiento a menudo se ve limitado por estimaciones de gradiente inestables debido al muestreo fijo y uniforme de respuestas entre diferentes indicaciones. Trabajos previos, como GVM-RAFT, abordan este problema asignando dinámicamente un presupuesto de inferencia por indicación para minimizar la varianza del gradiente estocástico bajo una restricción de presupuesto. Inspirados por esta idea, proponemos Reinforce-Ada, un marco de muestreo adaptativo para el entrenamiento posterior en línea por refuerzo de LLMs que reasigna continuamente el esfuerzo de muestreo a las indicaciones con mayor incertidumbre o potencial de aprendizaje. A diferencia de los métodos convencionales de asignación en dos etapas, Reinforce-Ada intercala la estimación y el muestreo en un proceso de eliminación sucesiva en línea, y detiene automáticamente el muestreo para una indicación una vez que se recopila suficiente señal. Para estabilizar las actualizaciones, formamos grupos de tamaño fijo con diversidad de recompensas impuesta y calculamos líneas base de ventaja utilizando estadísticas globales agregadas durante la fase de muestreo adaptativo. Los resultados empíricos en múltiples arquitecturas de modelos y benchmarks de razonamiento muestran que Reinforce-Ada acelera la convergencia y mejora el rendimiento final en comparación con GRPO, especialmente cuando se utiliza la variante de muestreo equilibrado. Nuestro trabajo destaca el papel central de la curación de datos adaptativa y consciente de la varianza para permitir un aprendizaje por refuerzo eficiente y confiable en LLMs con capacidades de razonamiento. El código está disponible en https://github.com/RLHFlow/Reinforce-Ada.
English
Reinforcement learning applied to large language models (LLMs) for reasoning
tasks is often bottlenecked by unstable gradient estimates due to fixed and
uniform sampling of responses across prompts. Prior work such as GVM-RAFT
addresses this by dynamically allocating inference budget per prompt to
minimize stochastic gradient variance under a budget constraint. Inspired by
this insight, we propose Reinforce-Ada, an adaptive sampling framework for
online RL post-training of LLMs that continuously reallocates sampling effort
to the prompts with the greatest uncertainty or learning potential. Unlike
conventional two-stage allocation methods, Reinforce-Ada interleaves estimation
and sampling in an online successive elimination process, and automatically
stops sampling for a prompt once sufficient signal is collected. To stabilize
updates, we form fixed-size groups with enforced reward diversity and compute
advantage baselines using global statistics aggregated over the adaptive
sampling phase. Empirical results across multiple model architectures and
reasoning benchmarks show that Reinforce-Ada accelerates convergence and
improves final performance compared to GRPO, especially when using the balanced
sampling variant. Our work highlights the central role of variance-aware,
adaptive data curation in enabling efficient and reliable reinforcement
learning for reasoning-capable LLMs. Code is available at
https://github.com/RLHFlow/Reinforce-Ada.