Het trainen van redeneermodellen op verzadigde problemen via voorwaardelijke foutprefixen

Samenvatting

Reinforcement Learning met Verifieerbare Beloningen (RLVR) heeft het redeneervermogen van grote taalmodellen (LLM's) aanzienlijk verbeterd, maar de training stagneert vaak naarmate problemen verzadigd raken. Wij identificeren de kernuitdaging als de slechte toegankelijkheid van informatieve fouten: leersignalen bestaan wel, maar worden zelden aangetroffen tijdens standaard rollouts. Om dit aan te pakken, stellen we *failure-prefix conditioning* voor, een eenvoudige en effectieve methode om te leren van verzadigde problemen. In plaats van te starten vanaf de oorspronkelijke vraag, herverdeelt onze aanpak de verkenning door de training te conditioneren op prefixen die zijn afgeleid van zeldzame incorrecte redeneertrajecten, waardoor het model wordt blootgesteld aan foutgevoelige toestanden. Wij observeren dat *failure-prefix conditioning* prestatieverbeteringen oplevert die overeenkomen met training op problemen van gemiddelde moeilijkheidsgraad, terwijl de token-efficiëntie behouden blijft. Verder analyseren we de robuustheid van het model en constateren dat onze methode prestatievermindering onder misleidende foutprefixen vermindert, zij het met een milde afweging in de naleving van correct vroeg redeneren. Ten slotte tonen we aan dat een iteratieve aanpak, waarbij foutprefixen tijdens de training worden ververst, extra winst mogelijk maakt na prestatieplateaus. Over het geheel genomen suggereren onze resultaten dat *failure-prefix conditioning* een effectieve weg biedt om RLVR-training op verzadigde problemen te verlengen.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has substantially improved the reasoning abilities of large language models (LLMs), yet training often stalls as problems become saturated. We identify the core challenge as the poor accessibility of informative failures: learning signals exist but are rarely encountered during standard rollouts. To address this, we propose failure-prefix conditioning, a simple and effective method for learning from saturated problems. Rather than starting from the original question, our approach reallocates exploration by conditioning training on prefixes derived from rare incorrect reasoning trajectories, thereby exposing the model to failure-prone states. We observe that failure-prefix conditioning yields performance gains matching those of training on medium-difficulty problems, while preserving token efficiency. Furthermore, we analyze the model's robustness, finding that our method reduces performance degradation under misleading failure prefixes, albeit with a mild trade-off in adherence to correct early reasoning. Finally, we demonstrate that an iterative approach, which refreshes failure prefixes during training, unlocks additional gains after performance plateaus. Overall, our results suggest that failure-prefix conditioning offers an effective pathway to extend RLVR training on saturated problems.

Het trainen van redeneermodellen op verzadigde problemen via voorwaardelijke foutprefixen

Training Reasoning Models on Saturated Problems via Failure-Prefix Conditioning

Samenvatting

Support