Training Reasoning Models on Saturated Problems via Failure-Prefix Conditioning

papers.abstract

Reinforcement Learning mit Verifizierbaren Belohnungen (RLVR) hat die Fähigkeiten großer Sprachmodelle (LLMs) zum logischen Schließen erheblich verbessert, doch das Training stagniert häufig, sobald Probleme gesättigt sind. Wir identifizieren die mangelnde Zugänglichkeit informativer Fehler als Kernproblem: Lernsignale existieren, werden aber während standardmäßiger Rollouts nur selten angetroffen. Um dies zu adressieren, schlagen wir Failure-Prefix Conditioning vor, eine einfache und effektive Methode zum Lernen aus gesättigten Problemen. Anstatt von der ursprünglichen Frage auszugehen, lenkt unser Ansatz die Exploration um, indem das Training auf Präfixen basiert, die von seltenen, fehlerhaften Lösungswegen abgeleitet werden. Dadurch wird das Modell fehleranfälligen Zuständen ausgesetzt. Wir beobachten, dass Failure-Prefix Conditioning Leistungssteigerungen erzielt, die dem Training auf Problemen mittlerer Schwierigkeit entsprechen, bei gleichbleibender Token-Effizienz. Darüber hinaus analysieren wir die Robustheit des Modells und stellen fest, dass unsere Methode die Leistungsverschlechterung bei irreführenden Fehlerpräfixen verringert, allerdings mit einem leichten Kompromiss in der Befolgung korrekter früherer Schlussfolgerungen. Schließlich demonstrieren wir, dass ein iterativer Ansatz, der Fehlerpräfixe während des Trainings aktualisiert, nach Erreichen von Leistungsplateaus zusätzliche Gewinne ermöglicht. Insgesamt deuten unsere Ergebnisse darauf hin, dass Failure-Prefix Conditioning einen effektiven Weg bietet, um das RLVR-Training an gesättigten Problemen fortzusetzen.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has substantially improved the reasoning abilities of large language models (LLMs), yet training often stalls as problems become saturated. We identify the core challenge as the poor accessibility of informative failures: learning signals exist but are rarely encountered during standard rollouts. To address this, we propose failure-prefix conditioning, a simple and effective method for learning from saturated problems. Rather than starting from the original question, our approach reallocates exploration by conditioning training on prefixes derived from rare incorrect reasoning trajectories, thereby exposing the model to failure-prone states. We observe that failure-prefix conditioning yields performance gains matching those of training on medium-difficulty problems, while preserving token efficiency. Furthermore, we analyze the model's robustness, finding that our method reduces performance degradation under misleading failure prefixes, albeit with a mild trade-off in adherence to correct early reasoning. Finally, we demonstrate that an iterative approach, which refreshes failure prefixes during training, unlocks additional gains after performance plateaus. Overall, our results suggest that failure-prefix conditioning offers an effective pathway to extend RLVR training on saturated problems.