ExpRL: Exploratief reinforcement learning voor tussentijdse training van grote taalmodellen

Samenvatting

Reinforcement learning met schaarse beloningen (RL) is een standaardinstrument geworden voor het verbeteren van het redeneren van LLM's, maar het succes ervan hangt in hoge mate af van de dekking in het basismodel. In de praktijk worden modellen vaak klaargestoomd voor RL door middel van tussentraining op samengestelde redeneertraces die nuttige primitieve vaardigheden aanleren, zoals decompositie, verificatie of zelfcorrectie. Hoewel effectief, vereist deze strategie dat handmatig wordt gespecificeerd wat het model moet leren, en het blijft onduidelijk of een dergelijke primitieve dekking voldoende is voor veel moeilijkere problemen, die het combineren van deze vaardigheden tot bredere oplossingsstrategieën vereisen. We bestuderen een meer geautomatiseerde aanpak: RL-gebaseerde tussentraining met behulp van grote corpora van door mensen geschreven vraag-antwoordgegevens. In plaats van referentieoplossingen te behandelen als na te bootsen doelen, gebruikt onze methode, ExpRL, ze als beloningsscaffolds: referenties worden verborgen voor het beleid en alleen gebruikt om probleemspecifieke beoordelingsrubrieken te construeren voor het beoordelen van on-policy redeneertraces. Het beleid samplet uit de oorspronkelijke probleemprompt, terwijl een LLM-beoordelaar de gesamplede redeneertrace vergelijkt met de referentieoplossing en dichte beloningen op uitkomst- of procesniveau toekent. Hierdoor kan ExpRL gedeeltelijke vooruitgang, nuttige tussentijdse reducties en productieve redeneergedragingen versterken die schaarse beloningen op basis van eindantwoord vaak niet weten te versterken. Bij uitdagende wiskundige redeneertaken levert ExpRL een sterkere RL-priming op dan SFT, GRPO met schaarse beloningen en zelfdistillatie, en biedt het een betere initialisatie voor daaropvolgend RL met schaarse beloningen. Aanvullende experimenten in gemengde domeinen suggereren verder dat ExpRL zich kan uitstrekken tot buiten de oorspronkelijke wiskundige setting.

English

Sparse reward reinforcement learning (RL) has become a standard tool for improving LLM reasoning, but its success depends critically on the coverage present in the base model. In practice, models are often primed for RL through mid-training on curated reasoning traces that teach useful primitive skills such as decomposition, verification, or self-correction. Although effective, this strategy requires manually specifying what the model should learn, and it remains unclear whether such primitive coverage is enough for much harder problems, which require combining these skills into broader solution strategies. We study a more automated approach: RL-based mid-training using large corpora of human-written question-answer data. Rather than treating reference solutions as targets to imitate, our method, ExpRL, uses them as reward scaffolds: references are hidden from the policy and used only to construct problem-specific grading rubrics for judging on-policy reasoning traces. The policy samples from the original problem prompt, while an LLM judge compares the sampled reasoning trace against the reference solution and assigns outcome-level or process-level dense rewards. This lets ExpRL reinforce partial progress, useful intermediate reductions, and productive reasoning behaviors that sparse final-answer rewards often fail to upweight. On challenging math reasoning tasks, ExpRL yields stronger RL priming than SFT, sparse-reward GRPO, and self-distillation, and provides a better initialization for subsequent sparse-reward RL. Additional mixed-domain experiments further suggest that ExpRL can extend beyond the original math-only setting.