Goldener Gans: Ein einfacher Trick zur Synthese unbegrenzter RLVR-Aufgaben aus nicht verifizierbarem Internettext
Golden Goose: A Simple Trick to Synthesize Unlimited RLVR Tasks from Unverifiable Internet Text
January 30, 2026
papers.authors: Ximing Lu, David Acuna, Jaehun Jung, Jian Hu, Di Zhang, Shizhe Diao, Yunheng Zou, Shaokun Zhang, Brandon Cui, Mingjie Liu, Hyunwoo Kim, Prithviraj Ammanabrolu, Jan Kautz, Yi Dong, Yejin Choi
cs.AI
papers.abstract
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat sich zu einem Grundpfeiler für das Erschließen komplexer Denkfähigkeiten in großen Sprachmodellen (LLMs) entwickelt. Die Skalierung von RL wird jedoch durch begrenzte vorhandene verifizierbare Daten ausgebremst, wobei die Verbesserungen bei längerem Training zunehmend stagnieren. Um dies zu überwinden, schlagen wir Golden Goose vor, einen einfachen Trick zur Synthese unbegrenzter RLVR-Aufgaben aus nicht verifizierbarem Internettext, indem wir eine Multiple-Choice-Version der „Fill-in-the-Middle“-Aufgabe konstruieren. Ausgehend von einem Quelltext bringen wir ein LLM dazu, Schlüsselschritte der Argumentation zu identifizieren und zu maskieren, und dann eine Reihe vielfältiger, plausibler Ablenkoptionen zu generieren. Dies ermöglicht es uns, reasoning-reiche, nicht verifizierbare Korpora zu nutzen, die typischerweise von früheren RLVR-Datenerstellungen ausgeschlossen wurden (z.B. Wissenschaftslehrbücher), um GooseReason-0.7M zu synthetisieren – einen groß angelegten RLVR-Datensatz mit über 0,7 Millionen Aufgaben aus den Bereichen Mathematik, Programmierung und allgemeine Wissenschaft. Empirisch belebt GooseReason Modelle effektiv wieder, die auf bestehenden RLVR-Daten gesättigt sind, erzielt robuste, anhaltende Gewinne unter kontinuierlichem RL und erreicht neue state-of-the-art Ergebnisse für 1,5B- und 4B-Instruct-Modelle über 15 verschiedene Benchmarks hinweg. Schließlich setzen wir Golden Goose in einem realen Szenario ein, indem wir RLVR-Aufgaben aus rohen FineWeb-Scraps für den Cybersicherheitsbereich synthetisieren, wo bisher keine RLVR-Daten existierten. Das Training von Qwen3-4B-Instruct auf den resultierenden Daten GooseReason-Cyber setzt einen neuen state-of-the-art Wert in der Cybersicherheit und übertrifft ein 7B-Modell mit Domänenspezialisierung, das umfangreiches domänenspezifisches Pre-Training und Post-Training durchlaufen hat. Dies unterstreicht das Potenzial, RLVR-Daten automatisch zu skalieren, indem man reichlich vorhandene, reasoning-reiche, nicht verifizierbare Internettexte nutzt.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has become a cornerstone for unlocking complex reasoning in Large Language Models (LLMs). Yet, scaling up RL is bottlenecked by limited existing verifiable data, where improvements increasingly saturate over prolonged training. To overcome this, we propose Golden Goose, a simple trick to synthesize unlimited RLVR tasks from unverifiable internet text by constructing a multiple-choice question-answering version of the fill-in-the-middle task. Given a source text, we prompt an LLM to identify and mask key reasoning steps, then generate a set of diverse, plausible distractors. This enables us to leverage reasoning-rich unverifiable corpora typically excluded from prior RLVR data construction (e.g., science textbooks) to synthesize GooseReason-0.7M, a large-scale RLVR dataset with over 0.7 million tasks spanning mathematics, programming, and general scientific domains. Empirically, GooseReason effectively revives models saturated on existing RLVR data, yielding robust, sustained gains under continuous RL and achieving new state-of-the-art results for 1.5B and 4B-Instruct models across 15 diverse benchmarks. Finally, we deploy Golden Goose in a real-world setting, synthesizing RLVR tasks from raw FineWeb scrapes for the cybersecurity domain, where no prior RLVR data exists. Training Qwen3-4B-Instruct on the resulting data GooseReason-Cyber sets a new state-of-the-art in cybersecurity, surpassing a 7B domain-specialized model with extensive domain-specific pre-training and post-training. This highlights the potential of automatically scaling up RLVR data by exploiting abundant, reasoning-rich, unverifiable internet text.