ExpRL: Exploratives RL für das Mid-Training von LLMs

Zusammenfassung

Reinforcement Learning (RL) mit spärlichen Belohnungen ist zu einem Standardwerkzeug zur Verbesserung des Denkens von LLMs geworden, aber sein Erfolg hängt entscheidend von der Abdeckung im Basismodell ab. In der Praxis werden Modelle oft durch Mid-Training auf kuratierten Reasoning-Spuren für RL vorbereitet, die nützliche primitive Fähigkeiten wie Zerlegung, Verifikation oder Selbstkorrektur vermitteln. Obwohl effektiv, erfordert diese Strategie die manuelle Spezifikation dessen, was das Modell lernen soll, und es bleibt unklar, ob eine solche primitive Abdeckung für wesentlich schwierigere Probleme ausreicht, die die Kombination dieser Fähigkeiten zu umfassenderen Lösungsstrategien erfordern. Wir untersuchen einen stärker automatisierten Ansatz: RL-basiertes Mid-Training unter Verwendung großer Korpora menschlich verfasster Frage-Antwort-Daten. Anstatt Referenzlösungen als zu imitierende Ziele zu behandeln, nutzt unsere Methode ExpRL sie als Belohnungsgerüste: Referenzen werden der Policy verborgen und nur zur Konstruktion problemspezifischer Bewertungsrubriken verwendet, um On-Policy-Reasoning-Spuren zu bewerten. Die Policy samplet aus dem ursprünglichen Problem-Prompt, während ein LLM-Richter die gesampelte Reasoning-Spur mit der Referenzlösung vergleicht und dichte Belohnungen auf Ergebnis- oder Prozessebene zuweist. Dies ermöglicht ExpRL, partiellen Fortschritt, nützliche Zwischenreduktionen und produktive Reasoning-Verhaltensweisen zu verstärken, die spärliche Endbelohnungen oft nicht ausreichend gewichten. Bei anspruchsvollen mathematischen Reasoning-Aufgaben erzielt ExpRL eine stärkere RL-Vorbereitung als SFT, GRPO mit spärlichen Belohnungen und Selbst-Destillation und bietet eine bessere Initialisierung für nachfolgendes RL mit spärlichen Belohnungen. Zusätzliche Experimente mit gemischten Domänen deuten ferner darauf hin, dass ExpRL über die ursprüngliche rein mathematische Umgebung hinaus erweitert werden kann.

English

Sparse reward reinforcement learning (RL) has become a standard tool for improving LLM reasoning, but its success depends critically on the coverage present in the base model. In practice, models are often primed for RL through mid-training on curated reasoning traces that teach useful primitive skills such as decomposition, verification, or self-correction. Although effective, this strategy requires manually specifying what the model should learn, and it remains unclear whether such primitive coverage is enough for much harder problems, which require combining these skills into broader solution strategies. We study a more automated approach: RL-based mid-training using large corpora of human-written question-answer data. Rather than treating reference solutions as targets to imitate, our method, ExpRL, uses them as reward scaffolds: references are hidden from the policy and used only to construct problem-specific grading rubrics for judging on-policy reasoning traces. The policy samples from the original problem prompt, while an LLM judge compares the sampled reasoning trace against the reference solution and assigns outcome-level or process-level dense rewards. This lets ExpRL reinforce partial progress, useful intermediate reductions, and productive reasoning behaviors that sparse final-answer rewards often fail to upweight. On challenging math reasoning tasks, ExpRL yields stronger RL priming than SFT, sparse-reward GRPO, and self-distillation, and provides a better initialization for subsequent sparse-reward RL. Additional mixed-domain experiments further suggest that ExpRL can extend beyond the original math-only setting.