Gouden Gans: Een Eenvoudige Truc om Onbeperkte RLVR-taken te Synthetiseren uit Onverifieerbare Internettekst

Samenvatting

Versterkend Leren met Verifieerbare Beloningen (RLVR) is een hoeksteen geworden voor het ontsluiten van complex redeneren in Grote Taalmodellen (LLM's). Toch wordt de opschaling van RL belemmerd door beperkte bestaande verifieerbare data, waarbij verbeteringen bij langdurige training steeds meer verzadigen. Om dit te overwinnen, stellen we Golden Goose voor, een eenvoudige truc om onbeperkte RLVR-taken te synthetiseren uit niet-verifieerbare internettekst door een meerkeuzevragenversie van de 'fill-in-the-middle'-taak te construeren. Gegeven een brontekst, laten we een LLM sleutelredeneerstappen identificeren en maskeren, en vervolgens een set diverse, plausibele afleiders genereren. Hierdoor kunnen we redenering-rijke, niet-verifieerbare corpora benutten die doorgaans werden uitgesloten bij eerdere RLVR-dataconstructie (bijvoorbeeld wetenschappelijke handboeken) om GooseReason-0.7M te synthetiseren, een grootschalige RLVR-dataset met meer dan 0,7 miljoen taken verspreid over wiskunde, programmeren en algemene wetenschappelijke domeinen. Empirisch gezien wekt GooseReason effectief modellen nieuw leven in die verzadigd zijn op bestaande RLVR-data, wat leidt tot robuuste, aanhoudende winst onder continue RL en nieuwe state-of-the-art resultaten oplevert voor 1.5B- en 4B-Instruct-modellen op 15 diverse benchmarks. Ten slotte implementeren we Golden Goose in een real-world setting, waarbij we RLVR-taken synthetiseren uit ruwe FineWeb-scrapes voor het cybersecurity-domein, waar geen eerdere RLVR-data bestaat. Het trainen van Qwen3-4B-Instruct op de resulterende data GooseReason-Cyber vestigt een nieuwe state-of-the-art in cybersecurity, en overtreft een 7B-domeingespecialiseerd model met uitgebreide domeinspecifieke pre-training en post-training. Dit benadrukt het potentieel van het automatisch opschalen van RLVR-data door gebruik te maken van overvloedige, redenering-rijke, niet-verifieerbare internettekst.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has become a cornerstone for unlocking complex reasoning in Large Language Models (LLMs). Yet, scaling up RL is bottlenecked by limited existing verifiable data, where improvements increasingly saturate over prolonged training. To overcome this, we propose Golden Goose, a simple trick to synthesize unlimited RLVR tasks from unverifiable internet text by constructing a multiple-choice question-answering version of the fill-in-the-middle task. Given a source text, we prompt an LLM to identify and mask key reasoning steps, then generate a set of diverse, plausible distractors. This enables us to leverage reasoning-rich unverifiable corpora typically excluded from prior RLVR data construction (e.g., science textbooks) to synthesize GooseReason-0.7M, a large-scale RLVR dataset with over 0.7 million tasks spanning mathematics, programming, and general scientific domains. Empirically, GooseReason effectively revives models saturated on existing RLVR data, yielding robust, sustained gains under continuous RL and achieving new state-of-the-art results for 1.5B and 4B-Instruct models across 15 diverse benchmarks. Finally, we deploy Golden Goose in a real-world setting, synthesizing RLVR tasks from raw FineWeb scrapes for the cybersecurity domain, where no prior RLVR data exists. Training Qwen3-4B-Instruct on the resulting data GooseReason-Cyber sets a new state-of-the-art in cybersecurity, surpassing a 7B domain-specialized model with extensive domain-specific pre-training and post-training. This highlights the potential of automatically scaling up RLVR data by exploiting abundant, reasoning-rich, unverifiable internet text.

Gouden Gans: Een Eenvoudige Truc om Onbeperkte RLVR-taken te Synthetiseren uit Onverifieerbare Internettekst

Golden Goose: A Simple Trick to Synthesize Unlimited RLVR Tasks from Unverifiable Internet Text

Samenvatting

Support