ChatPaper.aiChatPaper

Golden Goose: un semplice stratagemma per sintetizzare illimitate attività RLVR da testi Internet non verificabili

Golden Goose: A Simple Trick to Synthesize Unlimited RLVR Tasks from Unverifiable Internet Text

January 30, 2026
Autori: Ximing Lu, David Acuna, Jaehun Jung, Jian Hu, Di Zhang, Shizhe Diao, Yunheng Zou, Shaokun Zhang, Brandon Cui, Mingjie Liu, Hyunwoo Kim, Prithviraj Ammanabrolu, Jan Kautz, Yi Dong, Yejin Choi
cs.AI

Abstract

L'Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) è diventato un pilastro fondamentale per sbloccare il ragionamento complesso nei Large Language Model (LLM). Tuttavia, la scalabilità del RL è limitata dalla scarsità di dati verificabili esistenti, dove i miglioramenti tendono a saturarsi progressivamente durante un addestramento prolungato. Per superare questo problema, proponiamo Golden Goose, un semplice espediente per sintetizzare un numero illimitato di task RLVR a partire da testo internet non verificabile, costruendo una versione a scelta multipla del task di riempimento del testo (fill-in-the-middle). Dato un testo sorgente, sollecitiamo un LLM a identificare e mascherare i passaggi chiave del ragionamento, per poi generare un insieme di distrattori plausibili e diversificati. Ciò ci permette di sfruttare corpora ricchi di ragionamento ma non verificabili, tipicamente esclusi dalla costruzione di dati RLVR precedente (ad es. libri di testo scientifici), per sintetizzare GooseReason-0.7M, un dataset RLVR su larga scala con oltre 0.7 milioni di task che spaziano dalla matematica alla programmazione e a domini scientifici generali. Empiricamente, GooseReason rivitalizza efficacemente i modelli saturati sui dati RLVR esistenti, producendo guadagni robusti e sostenuti sotto RL continuo e raggiungendo nuovi risultati state-of-the-art per modelli 1.5B e 4B-Instruct su 15 benchmark diversi. Infine, implementiamo Golden Goose in un contesto reale, sintetizzando task RLVR da scrape grezzi di FineWeb per il dominio della cybersecurity, dove non esistevano precedentemente dati RLVR. L'addestramento di Qwen3-4B-Instruct sui dati risultanti, GooseReason-Cyber, stabilisce un nuovo state-of-the-art nella cybersecurity, superando un modello specializzato nel dominio da 7B che aveva beneficiato di un esteso pre-addestramento e post-addestramento specifico. Ciò evidenzia il potenziale di scalare automaticamente i dati RLVR sfruttando l'abbondante testo internet, ricco di ragionamento ma non verificabile.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has become a cornerstone for unlocking complex reasoning in Large Language Models (LLMs). Yet, scaling up RL is bottlenecked by limited existing verifiable data, where improvements increasingly saturate over prolonged training. To overcome this, we propose Golden Goose, a simple trick to synthesize unlimited RLVR tasks from unverifiable internet text by constructing a multiple-choice question-answering version of the fill-in-the-middle task. Given a source text, we prompt an LLM to identify and mask key reasoning steps, then generate a set of diverse, plausible distractors. This enables us to leverage reasoning-rich unverifiable corpora typically excluded from prior RLVR data construction (e.g., science textbooks) to synthesize GooseReason-0.7M, a large-scale RLVR dataset with over 0.7 million tasks spanning mathematics, programming, and general scientific domains. Empirically, GooseReason effectively revives models saturated on existing RLVR data, yielding robust, sustained gains under continuous RL and achieving new state-of-the-art results for 1.5B and 4B-Instruct models across 15 diverse benchmarks. Finally, we deploy Golden Goose in a real-world setting, synthesizing RLVR tasks from raw FineWeb scrapes for the cybersecurity domain, where no prior RLVR data exists. Training Qwen3-4B-Instruct on the resulting data GooseReason-Cyber sets a new state-of-the-art in cybersecurity, surpassing a 7B domain-specialized model with extensive domain-specific pre-training and post-training. This highlights the potential of automatically scaling up RLVR data by exploiting abundant, reasoning-rich, unverifiable internet text.
PDF1055February 27, 2026