Ganso de Ouro: Um Truque Simples para Sintetizar Tarefas Ilimitadas de RLVR a Partir de Textos Não Verificáveis da Internet

Resumo

O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) tornou-se um pilar fundamental para desbloquear o raciocínio complexo em Modelos de Linguagem de Grande Porte (LLMs). No entanto, a escalabilidade do RL é limitada pela escassez de dados verificáveis existentes, onde as melhorias tendem a saturar progressivamente durante treinamentos prolongados. Para superar isso, propomos o Golden Goose, um método simples para sintetizar tarefas ilimitadas de RLVR a partir de textos da internet não verificáveis, criando uma versão de tarefa de preenchimento no meio no formato de questão de múltipla escolha. Dado um texto-fonte, instruímos um LLM a identificar e mascarar etapas-chave de raciocínio, gerando em seguida um conjunto de distratores plausíveis e diversos. Isso nos permite aproveitar corpora não verificáveis ricos em raciocínio, normalmente excluídos da construção de dados RLVR anteriores (por exemplo, livros didáticos de ciências), para sintetizar o GooseReason-0.7M, um conjunto de dados RLVR em larga escala com mais de 0,7 milhão de tarefas abrangendo matemática, programação e domínios científicos gerais. Empiricamente, o GooseReason revive efetivamente modelos saturados com dados RLVR existentes, proporcionando ganhos robustos e sustentados sob RL contínuo e alcançando novos resultados state-of-the-art para modelos 1.5B e 4B-Instruct em 15 benchmarks diversos. Por fim, implantamos o Golden Goose em um cenário do mundo real, sintetizando tarefas RLVR a partir de *scrapes* brutos do FineWeb para o domínio de cibersegurança, onde nenhum dado RLVR anterior existia. Treinar o Qwen3-4B-Instruct nos dados resultantes, GooseReason-Cyber, estabelece um novo estado da arte em cibersegurança, superando um modelo especializado de domínio de 7B com extensivo pré-treinamento e pós-treinamento específico. Isso destaca o potencial de escalar automaticamente os dados RLVR explorando textos da internet abundantes, ricos em raciocínio e não verificáveis.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has become a cornerstone for unlocking complex reasoning in Large Language Models (LLMs). Yet, scaling up RL is bottlenecked by limited existing verifiable data, where improvements increasingly saturate over prolonged training. To overcome this, we propose Golden Goose, a simple trick to synthesize unlimited RLVR tasks from unverifiable internet text by constructing a multiple-choice question-answering version of the fill-in-the-middle task. Given a source text, we prompt an LLM to identify and mask key reasoning steps, then generate a set of diverse, plausible distractors. This enables us to leverage reasoning-rich unverifiable corpora typically excluded from prior RLVR data construction (e.g., science textbooks) to synthesize GooseReason-0.7M, a large-scale RLVR dataset with over 0.7 million tasks spanning mathematics, programming, and general scientific domains. Empirically, GooseReason effectively revives models saturated on existing RLVR data, yielding robust, sustained gains under continuous RL and achieving new state-of-the-art results for 1.5B and 4B-Instruct models across 15 diverse benchmarks. Finally, we deploy Golden Goose in a real-world setting, synthesizing RLVR tasks from raw FineWeb scrapes for the cybersecurity domain, where no prior RLVR data exists. Training Qwen3-4B-Instruct on the resulting data GooseReason-Cyber sets a new state-of-the-art in cybersecurity, surpassing a 7B domain-specialized model with extensive domain-specific pre-training and post-training. This highlights the potential of automatically scaling up RLVR data by exploiting abundant, reasoning-rich, unverifiable internet text.

Ganso de Ouro: Um Truque Simples para Sintetizar Tarefas Ilimitadas de RLVR a Partir de Textos Não Verificáveis da Internet

Golden Goose: A Simple Trick to Synthesize Unlimited RLVR Tasks from Unverifiable Internet Text

Resumo

Support