Golden Goose: 検証不可能なインターネットテキストから無限のRLVRタスクを合成するシンプルな手法
Golden Goose: A Simple Trick to Synthesize Unlimited RLVR Tasks from Unverifiable Internet Text
January 30, 2026
著者: Ximing Lu, David Acuna, Jaehun Jung, Jian Hu, Di Zhang, Shizhe Diao, Yunheng Zou, Shaokun Zhang, Brandon Cui, Mingjie Liu, Hyunwoo Kim, Prithviraj Ammanabrolu, Jan Kautz, Yi Dong, Yejin Choi
cs.AI
要旨
検証可能な報酬を用いた強化学習(RLVR)は、大規模言語モデル(LLM)における複雑な推論能力を解放する基盤技術となっている。しかし、RLのスケーリングは既存の検証可能データの不足によって頭打ちとなり、長時間の学習において改善が飽和する傾向がある。この課題を克服するため、我々は**Golden Goose**を提案する。これは、検証不可能なインターネットテキストから無限のRLVRタスクを合成する簡潔な手法であり、文中穴埋めタスクを多肢選択式質問応答形式に変換する。具体的には、原文を与えてLLMに重要な推論ステップの特定とマスキングを促し、多様で説得力のある誤答選択肢を生成する。これにより、従来のRLVRデータ構築では除外されてきた推論豊富な検証不能コーパス(例:科学教科書)を活用し、数学・プログラミング・一般科学領域にわたる70万以上のタスクからなる大規模RLVRデータセット**GooseReason-0.7M**を構築した。実験では、既存RLVRデータで飽和したモデルがGooseReasonによって再び性能向上し、連続的なRL下で堅牢かつ持続的な改善を示し、1.5B/4B-Instructモデルにおいて15の多様なベンチマークで新たな最高精度を達成した。最後に、Golden Gooseを現実環境に適用し、サイバーセキュリティ領域ではRLVRデータが存在しない生のFineWebスクレイプからRLVRタスクを合成した。生成データ**GooseReason-Cyber**でQwen3-4B-Instructを学習させた結果、ドメイン特化的な事前学習と事後学習を施した7Bモデルを凌駕し、サイバーセキュリティ領域で新たな最高性能を樹立した。これは、豊富に存在する推論豊かな検証不能なインターネットテキストを活用することでRLVRデータを自動的に拡張する可能性を示唆している。
English
Reinforcement Learning with Verifiable Rewards (RLVR) has become a cornerstone for unlocking complex reasoning in Large Language Models (LLMs). Yet, scaling up RL is bottlenecked by limited existing verifiable data, where improvements increasingly saturate over prolonged training. To overcome this, we propose Golden Goose, a simple trick to synthesize unlimited RLVR tasks from unverifiable internet text by constructing a multiple-choice question-answering version of the fill-in-the-middle task. Given a source text, we prompt an LLM to identify and mask key reasoning steps, then generate a set of diverse, plausible distractors. This enables us to leverage reasoning-rich unverifiable corpora typically excluded from prior RLVR data construction (e.g., science textbooks) to synthesize GooseReason-0.7M, a large-scale RLVR dataset with over 0.7 million tasks spanning mathematics, programming, and general scientific domains. Empirically, GooseReason effectively revives models saturated on existing RLVR data, yielding robust, sustained gains under continuous RL and achieving new state-of-the-art results for 1.5B and 4B-Instruct models across 15 diverse benchmarks. Finally, we deploy Golden Goose in a real-world setting, synthesizing RLVR tasks from raw FineWeb scrapes for the cybersecurity domain, where no prior RLVR data exists. Training Qwen3-4B-Instruct on the resulting data GooseReason-Cyber sets a new state-of-the-art in cybersecurity, surpassing a 7B domain-specialized model with extensive domain-specific pre-training and post-training. This highlights the potential of automatically scaling up RLVR data by exploiting abundant, reasoning-rich, unverifiable internet text.