DenoiseRL: Bootstrapping van redeneermodellen om te herstellen van ruisende prefixen

Samenvatting

Versterkend leren is een centraal paradigma geworden voor het verbeteren van redeneren in grote taalmodellen, maar de meeste bestaande methoden zijn nog steeds afhankelijk van sterkere docentmodellen of zorgvuldig samengestelde moeilijke datasets, wat de schaalbare capaciteitsverbetering beperkt. In dit artikel introduceren we DenoiseRL, een versterkend leren raamwerk dat externe supervisie vervangt door herstelgerichte optimalisatie over fouten van zwakke modellen. In plaats van te vertrouwen op sterkere supervisie of zorgvuldig ontworpen gegevens, leert DenoiseRL rechtstreeks van onjuiste redeneringspaden door deze om te zetten in kansen voor verbetering, waardoor training schaalbaarder wordt en minder afhankelijk van externe hulpbronnen. Dit levert een rijker en diverser leersignaal op, wat de verkennings efficiëntie bij onvolmaakt modelgedrag verbetert. Als gevolg hiervan verbetert DenoiseRL de redeneringsprestaties en de algehele trainingsefficiëntie, terwijl de behoefte aan dure gegevenscuratie of sterkere docentmodellen afneemt. Empirisch gezien presteert DenoiseRL consequent beter dan sterke on-policy RL-baselines in competitieve wiskundige en algemene redeneringsbenchmarks, en bevordert het sterker zelfcorrigerend gedrag naarmate de training moeilijker wordt, wat een effectieve en schaalbare alternatieve weg belicht voor het verbeteren van redeneren in grote taalmodellen.

English

Reinforcement learning has become a central paradigm for advancing reasoning in large language models, yet most existing methods still depend on stronger teacher models or heavily curated difficult datasets, limiting scalable capability improvement. In this paper, we introduce DenoiseRL, a reinforcement learning framework that substitutes external supervision with recovery-oriented optimization over failures from weak models. Instead of relying on stronger supervision or carefully engineered data, DenoiseRL learns directly from incorrect reasoning traces by converting them into opportunities for improvement, making training more scalable and less dependent on external resources. This yields a richer and more diverse learning signal, improving exploration efficiency from imperfect model behavior. As a result, DenoiseRL improves reasoning performance and overall training efficiency while reducing the need for expensive data curation or stronger teacher models. Empirically, DenoiseRL consistently outperforms strong on-policy RL baselines across competitive mathematical and general reasoning benchmarks and promotes stronger self-corrective behavior as training difficulty increases, highlighting an effective and scalable alternative pathway for improving reasoning in large language models.