Golden Goose: Un Truco Sencillo para Sintetizar Tareas RLVR Ilimitadas a partir de Texto de Internet No Verificable
Golden Goose: A Simple Trick to Synthesize Unlimited RLVR Tasks from Unverifiable Internet Text
January 30, 2026
Autores: Ximing Lu, David Acuna, Jaehun Jung, Jian Hu, Di Zhang, Shizhe Diao, Yunheng Zou, Shaokun Zhang, Brandon Cui, Mingjie Liu, Hyunwoo Kim, Prithviraj Ammanabrolu, Jan Kautz, Yi Dong, Yejin Choi
cs.AI
Resumen
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) se ha convertido en un pilar fundamental para desbloquear el razonamiento complejo en los Modelos de Lenguaje Grandes (LLMs). Sin embargo, la escalabilidad del RL se ve limitada por la escasez de datos verificables existentes, donde las mejoras se saturan progresivamente tras entrenamientos prolongados. Para superar esto, proponemos Golden Goose, un método sencillo para sintetizar tareas ilimitadas de RLVR a partir de texto de internet no verificable, construyendo una versión de preguntas de opción múltiple de la tarea de completar-el-medio. Dado un texto fuente, instamos a un LLM a identificar y enmascarar pasos clave de razonamiento, para luego generar un conjunto de distractores diversos y plausibles. Esto nos permite aprovechar corpus no verificables ricos en razonamiento, típicamente excluidos de construcciones previas de datos RLVR (por ejemplo, libros de texto de ciencias), para sintetizar GooseReason-0.7M, un conjunto de datos RLVR a gran escala con más de 0.7 millones de tareas que abarcan matemáticas, programación y dominios científicos generales. Empíricamente, GooseReason reactiva eficazmente modelos saturados con datos RLVR existentes, generando ganancias robustas y sostenidas bajo RL continuo y logrando nuevos resultados de vanguardia para modelos de 1.5B y 4B-Instruct en 15 benchmarks diversos. Finalmente, implementamos Golden Goose en un entorno del mundo real, sintetizando tareas RLVR a partir de fragmentos crudos de FineWeb para el dominio de la ciberseguridad, donde no existían datos RLVR previos. Entrenar Qwen3-4B-Instruct con los datos resultantes, GooseReason-Cyber, establece un nuevo estado del arte en ciberseguridad, superando a un modelo especializado de 7B con un extenso pre-entrenamiento y post-entrenamiento específico del dominio. Esto subraya el potencial de escalar automáticamente los datos RLVR explotando el abundante texto de internet, rico en razonamiento pero no verificable.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has become a cornerstone for unlocking complex reasoning in Large Language Models (LLMs). Yet, scaling up RL is bottlenecked by limited existing verifiable data, where improvements increasingly saturate over prolonged training. To overcome this, we propose Golden Goose, a simple trick to synthesize unlimited RLVR tasks from unverifiable internet text by constructing a multiple-choice question-answering version of the fill-in-the-middle task. Given a source text, we prompt an LLM to identify and mask key reasoning steps, then generate a set of diverse, plausible distractors. This enables us to leverage reasoning-rich unverifiable corpora typically excluded from prior RLVR data construction (e.g., science textbooks) to synthesize GooseReason-0.7M, a large-scale RLVR dataset with over 0.7 million tasks spanning mathematics, programming, and general scientific domains. Empirically, GooseReason effectively revives models saturated on existing RLVR data, yielding robust, sustained gains under continuous RL and achieving new state-of-the-art results for 1.5B and 4B-Instruct models across 15 diverse benchmarks. Finally, we deploy Golden Goose in a real-world setting, synthesizing RLVR tasks from raw FineWeb scrapes for the cybersecurity domain, where no prior RLVR data exists. Training Qwen3-4B-Instruct on the resulting data GooseReason-Cyber sets a new state-of-the-art in cybersecurity, surpassing a 7B domain-specialized model with extensive domain-specific pre-training and post-training. This highlights the potential of automatically scaling up RLVR data by exploiting abundant, reasoning-rich, unverifiable internet text.