DenoiseRL: Bootstrapping von Reasoning-Modellen zur Wiederherstellung aus verrauschten Präfixen

Zusammenfassung

Das verstärkende Lernen hat sich zu einem zentralen Paradigma für die Verbesserung des logischen Denkens in großen Sprachmodellen entwickelt, doch die meisten bestehenden Methoden sind nach wie vor auf stärkere Lehrermodelle oder aufwändig kuratierte schwierige Datensätze angewiesen, was die skalierbare Leistungssteigerung begrenzt. In diesem Beitrag stellen wir DenoiseRL vor, ein Framework für verstärkendes Lernen, das externe Überwachung durch eine wiederherstellungsorientierte Optimierung von Fehlern aus schwachen Modellen ersetzt. Anstatt auf stärkere Überwachung oder sorgfältig aufbereitete Daten zu setzen, lernt DenoiseRL direkt aus fehlerhaften Denkspuren, indem es diese in Verbesserungsmöglichkeiten umwandelt, wodurch das Training skalierbarer und weniger abhängig von externen Ressourcen wird. Dies erzeugt ein reichhaltigeres und vielfältigeres Lernsignal, das die Erkundungseffizienz aus unvollkommenem Modellverhalten verbessert. Infolgedessen steigert DenoiseRL die Denkleistung und die gesamte Trainingseffizienz, während der Bedarf an teurer Datenkuratierung oder stärkeren Lehrermodellen reduziert wird. Empirisch übertrifft DenoiseRL durchgängig starke On-Policy-RL-Baselines in wettbewerbsfähigen mathematischen und allgemeinen Denkbenchmarks und fördert mit zunehmendem Trainingsschwierigkeitsgrad ein stärkeres selbstkorrigierendes Verhalten, was einen effektiven und skalierbaren alternativen Weg zur Verbesserung des logischen Denkens in großen Sprachmodellen aufzeigt.

English

Reinforcement learning has become a central paradigm for advancing reasoning in large language models, yet most existing methods still depend on stronger teacher models or heavily curated difficult datasets, limiting scalable capability improvement. In this paper, we introduce DenoiseRL, a reinforcement learning framework that substitutes external supervision with recovery-oriented optimization over failures from weak models. Instead of relying on stronger supervision or carefully engineered data, DenoiseRL learns directly from incorrect reasoning traces by converting them into opportunities for improvement, making training more scalable and less dependent on external resources. This yields a richer and more diverse learning signal, improving exploration efficiency from imperfect model behavior. As a result, DenoiseRL improves reasoning performance and overall training efficiency while reducing the need for expensive data curation or stronger teacher models. Empirically, DenoiseRL consistently outperforms strong on-policy RL baselines across competitive mathematical and general reasoning benchmarks and promotes stronger self-corrective behavior as training difficulty increases, highlighting an effective and scalable alternative pathway for improving reasoning in large language models.