DenoiseRL: Bootstrapping de modelos de razonamiento para recuperarse de prefijos ruidosos

Resumen

El aprendizaje por refuerzo se ha convertido en un paradigma central para avanzar en el razonamiento de los modelos de lenguaje extensos; sin embargo, la mayoría de los métodos existentes aún dependen de modelos docentes más fuertes o de conjuntos de datos difíciles cuidadosamente seleccionados, lo que limita la mejora escalable de las capacidades. En este artículo presentamos DenoiseRL, un marco de aprendizaje por refuerzo que sustituye la supervisión externa por una optimización orientada a la recuperación sobre fallos provenientes de modelos débiles. En lugar de confiar en una supervisión más potente o en datos meticulosamente diseñados, DenoiseRL aprende directamente de trazas de razonamiento incorrectas, transformándolas en oportunidades de mejora, lo que hace que el entrenamiento sea más escalable y menos dependiente de recursos externos. Esto genera una señal de aprendizaje más rica y diversa, mejorando la eficiencia de exploración a partir del comportamiento imperfecto del modelo. Como resultado, DenoiseRL mejora el rendimiento del razonamiento y la eficiencia general del entrenamiento, a la vez que reduce la necesidad de una costosa curación de datos o de modelos docentes más fuertes. Empíricamente, DenoiseRL supera sistemáticamente a las líneas base sólidas de aprendizaje por refuerzo on-policy en benchmarks competitivos de razonamiento matemático y general, y promueve un comportamiento autocorrectivo más robusto a medida que aumenta la dificultad del entrenamiento, lo que destaca una vía alternativa efectiva y escalable para mejorar el razonamiento en modelos de lenguaje extensos.

English

Reinforcement learning has become a central paradigm for advancing reasoning in large language models, yet most existing methods still depend on stronger teacher models or heavily curated difficult datasets, limiting scalable capability improvement. In this paper, we introduce DenoiseRL, a reinforcement learning framework that substitutes external supervision with recovery-oriented optimization over failures from weak models. Instead of relying on stronger supervision or carefully engineered data, DenoiseRL learns directly from incorrect reasoning traces by converting them into opportunities for improvement, making training more scalable and less dependent on external resources. This yields a richer and more diverse learning signal, improving exploration efficiency from imperfect model behavior. As a result, DenoiseRL improves reasoning performance and overall training efficiency while reducing the need for expensive data curation or stronger teacher models. Empirically, DenoiseRL consistently outperforms strong on-policy RL baselines across competitive mathematical and general reasoning benchmarks and promotes stronger self-corrective behavior as training difficulty increases, highlighting an effective and scalable alternative pathway for improving reasoning in large language models.