Golden Goose : une astuce simple pour synthétiser des tâches RLVR illimitées à partir de textes Internet non vérifiables
Golden Goose: A Simple Trick to Synthesize Unlimited RLVR Tasks from Unverifiable Internet Text
January 30, 2026
papers.authors: Ximing Lu, David Acuna, Jaehun Jung, Jian Hu, Di Zhang, Shizhe Diao, Yunheng Zou, Shaokun Zhang, Brandon Cui, Mingjie Liu, Hyunwoo Kim, Prithviraj Ammanabrolu, Jan Kautz, Yi Dong, Yejin Choi
cs.AI
papers.abstract
Le Reinforcement Learning avec Récompenses Vérifiables (RLVR) est devenu une pierre angulaire pour débloquer le raisonnement complexe dans les Grands Modèles de Langage (LLM). Cependant, la montée en puissance du RL est freinée par la quantité limitée de données vérifiables existantes, où les améliorations atteignent une saturation croissante lors d'entraînements prolongés. Pour surmonter cela, nous proposons Golden Goose, une astuce simple pour synthétiser un nombre illimité de tâches RLVR à partir de textes internet non vérifiables, en construisant une version à choix multiples de la tâche de remplissage au milieu. Étant donné un texte source, nous incitons un LLM à identifier et masquer les étapes clés du raisonnement, puis à générer un ensemble de distracteurs plausibles et diversifiés. Cela nous permet d'exploiter des corpus non vérifiables riches en raisonnement, généralement exclus de la construction de données RLVR antérieure (par exemple, les manuels scientifiques), pour synthétiser GooseReason-0.7M, un jeu de données RLVR à grande échelle comprenant plus de 0,7 million de tâches couvrant les domaines des mathématiques, de la programmation et des sciences générales. Empiriquement, GooseReason redynamise efficacement les modèles saturés par les données RLVR existantes, produisant des gains robustes et soutenus sous un apprentissage par renforcement continu et établissant de nouveaux records sur 15 benchmarks divers pour les modèles 1,5B et 4B-Instruct. Enfin, nous déployons Golden Goose dans un cadre réel, en synthétisant des tâches RLVR à partir de données brutes FineWeb pour le domaine de la cybersécurité, où aucune donnée RLVR n'existait auparavant. L'entraînement de Qwen3-4B-Instruct sur les données résultantes, GooseReason-Cyber, établit un nouveau state-of-the-art en cybersécurité, surpassant un modèle spécialisé de 7B pourtant soumis à un pré-entraînement et un post-entraînement extensifs spécifiques au domaine. Cela souligne le potentiel de l'extension automatique des données RLVR en exploitant l'abondant texte internet, riche en raisonnement mais non vérifiable.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has become a cornerstone for unlocking complex reasoning in Large Language Models (LLMs). Yet, scaling up RL is bottlenecked by limited existing verifiable data, where improvements increasingly saturate over prolonged training. To overcome this, we propose Golden Goose, a simple trick to synthesize unlimited RLVR tasks from unverifiable internet text by constructing a multiple-choice question-answering version of the fill-in-the-middle task. Given a source text, we prompt an LLM to identify and mask key reasoning steps, then generate a set of diverse, plausible distractors. This enables us to leverage reasoning-rich unverifiable corpora typically excluded from prior RLVR data construction (e.g., science textbooks) to synthesize GooseReason-0.7M, a large-scale RLVR dataset with over 0.7 million tasks spanning mathematics, programming, and general scientific domains. Empirically, GooseReason effectively revives models saturated on existing RLVR data, yielding robust, sustained gains under continuous RL and achieving new state-of-the-art results for 1.5B and 4B-Instruct models across 15 diverse benchmarks. Finally, we deploy Golden Goose in a real-world setting, synthesizing RLVR tasks from raw FineWeb scrapes for the cybersecurity domain, where no prior RLVR data exists. Training Qwen3-4B-Instruct on the resulting data GooseReason-Cyber sets a new state-of-the-art in cybersecurity, surpassing a 7B domain-specialized model with extensive domain-specific pre-training and post-training. This highlights the potential of automatically scaling up RLVR data by exploiting abundant, reasoning-rich, unverifiable internet text.