DenoiseRL : Amorçage de modèles de raisonnement pour la récupération à partir de préfixes bruités

Résumé

L'apprentissage par renforcement est devenu un paradigme central pour améliorer le raisonnement dans les grands modèles de langage, mais la plupart des méthodes existantes dépendent encore de modèles enseignants plus forts ou de jeux de données difficiles soigneusement sélectionnés, ce qui limite l'amélioration évolutive des capacités. Dans cet article, nous présentons DenoiseRL, un cadre d'apprentissage par renforcement qui substitue la supervision externe par une optimisation axée sur la récupération à partir des échecs de modèles faibles. Au lieu de reposer sur une supervision plus forte ou des données soigneusement conçues, DenoiseRL apprend directement à partir de traces de raisonnement incorrectes en les transformant en opportunités d'amélioration, rendant l'entraînement plus évolutif et moins dépendant des ressources externes. Cela produit un signal d'apprentissage plus riche et plus diversifié, améliorant l'efficacité de l'exploration à partir de comportements de modèles imparfaits. En conséquence, DenoiseRL améliore les performances de raisonnement et l'efficacité globale de l'entraînement tout en réduisant le besoin de curation coûteuse de données ou de modèles enseignants plus forts. Empiriquement, DenoiseRL surpasse systématiquement les références RL sur politique fortes sur des références compétitives de raisonnement mathématique et général, et favorise un comportement d'auto-correction plus fort à mesure que la difficulté d'entraînement augmente, mettant en évidence une voie alternative efficace et évolutive pour améliorer le raisonnement dans les grands modèles de langage.

English

Reinforcement learning has become a central paradigm for advancing reasoning in large language models, yet most existing methods still depend on stronger teacher models or heavily curated difficult datasets, limiting scalable capability improvement. In this paper, we introduce DenoiseRL, a reinforcement learning framework that substitutes external supervision with recovery-oriented optimization over failures from weak models. Instead of relying on stronger supervision or carefully engineered data, DenoiseRL learns directly from incorrect reasoning traces by converting them into opportunities for improvement, making training more scalable and less dependent on external resources. This yields a richer and more diverse learning signal, improving exploration efficiency from imperfect model behavior. As a result, DenoiseRL improves reasoning performance and overall training efficiency while reducing the need for expensive data curation or stronger teacher models. Empirically, DenoiseRL consistently outperforms strong on-policy RL baselines across competitive mathematical and general reasoning benchmarks and promotes stronger self-corrective behavior as training difficulty increases, highlighting an effective and scalable alternative pathway for improving reasoning in large language models.