Золотой гусь: простой способ синтезировать неограниченное количество RLVR-задач из непроверяемых интернет-текстов
Golden Goose: A Simple Trick to Synthesize Unlimited RLVR Tasks from Unverifiable Internet Text
January 30, 2026
Авторы: Ximing Lu, David Acuna, Jaehun Jung, Jian Hu, Di Zhang, Shizhe Diao, Yunheng Zou, Shaokun Zhang, Brandon Cui, Mingjie Liu, Hyunwoo Kim, Prithviraj Ammanabrolu, Jan Kautz, Yi Dong, Yejin Choi
cs.AI
Аннотация
Обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) стало краеугольным камнем для раскрытия сложных рассуждений в больших языковых моделях (LLM). Однако масштабирование RL ограничено небольшим объемом существующих верифицируемых данных, где улучшения все больше насыщаются при длительном обучении. Чтобы преодолеть это, мы предлагаем Golden Goose — простой метод синтеза неограниченного количества задач RLVR из непроверяемых интернет-текстов путем создания версии задачи заполнения пропуска в формате вопросов с множественным выбором. Исходный текст используется для того, чтобы LLM идентифицировала и замаскировала ключевые шаги рассуждений, а затем сгенерировала набор разнообразных правдоподобных дистракторов. Это позволяет задействовать богатые логикой непроверяемые корпуса, которые обычно исключались из предыдущих подходов к созданию данных RLVR (например, научные учебники), для синтеза GooseReason-0.7M — масштабного набора данных RLVR, содержащего более 0.7 миллионов задач из областей математики, программирования и общенаучных дисциплин. Экспериментально показано, что GooseReason эффективно оживляет модели, насытившиеся на существующих данных RLVR, обеспечивая устойчивый прогресс при непрерывном RL и устанавливая новые рекордные результаты для инструктивных моделей объемом 1.5B и 4B параметров на 15 разнообразных бенчмарках. Наконец, мы развернули Golden Goose в реальных условиях, синтезировав задачи RLVR из сырых данных FineWeb для области кибербезопасности, где ранее не существовало данных RLVR. Обучение модели Qwen3-4B-Instruct на полученных данных GooseReason-Cyber устанавливает новый рекорд в кибербезопасности, превосходя специализированную 7B-модель с обширным доменно-специфичным предобучением и постобработкой. Это подчеркивает потенциал автоматического масштабирования данных RLVR за счет использования обильных, богатых логикой, но непроверяемых интернет-текстов.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has become a cornerstone for unlocking complex reasoning in Large Language Models (LLMs). Yet, scaling up RL is bottlenecked by limited existing verifiable data, where improvements increasingly saturate over prolonged training. To overcome this, we propose Golden Goose, a simple trick to synthesize unlimited RLVR tasks from unverifiable internet text by constructing a multiple-choice question-answering version of the fill-in-the-middle task. Given a source text, we prompt an LLM to identify and mask key reasoning steps, then generate a set of diverse, plausible distractors. This enables us to leverage reasoning-rich unverifiable corpora typically excluded from prior RLVR data construction (e.g., science textbooks) to synthesize GooseReason-0.7M, a large-scale RLVR dataset with over 0.7 million tasks spanning mathematics, programming, and general scientific domains. Empirically, GooseReason effectively revives models saturated on existing RLVR data, yielding robust, sustained gains under continuous RL and achieving new state-of-the-art results for 1.5B and 4B-Instruct models across 15 diverse benchmarks. Finally, we deploy Golden Goose in a real-world setting, synthesizing RLVR tasks from raw FineWeb scrapes for the cybersecurity domain, where no prior RLVR data exists. Training Qwen3-4B-Instruct on the resulting data GooseReason-Cyber sets a new state-of-the-art in cybersecurity, surpassing a 7B domain-specialized model with extensive domain-specific pre-training and post-training. This highlights the potential of automatically scaling up RLVR data by exploiting abundant, reasoning-rich, unverifiable internet text.