골든구스: 검증 불가능한 인터넷 텍스트에서 무제한 RLVR 과제를 합성하는 간단한 방법
Golden Goose: A Simple Trick to Synthesize Unlimited RLVR Tasks from Unverifiable Internet Text
January 30, 2026
저자: Ximing Lu, David Acuna, Jaehun Jung, Jian Hu, Di Zhang, Shizhe Diao, Yunheng Zou, Shaokun Zhang, Brandon Cui, Mingjie Liu, Hyunwoo Kim, Prithviraj Ammanabrolu, Jan Kautz, Yi Dong, Yejin Choi
cs.AI
초록
검증 가능한 보상 강화학습(RLVR)은 대규모 언어 모델(LLM)의 복잡한 추론 능력을 개방하는 초석이 되었습니다. 그러나 RL의 확장은 기존 검증 가능 데이터의 한계로 인해 병목 현상을 겪고 있으며, 장기간 훈련할수록 성능 향상이 점차 포화 상태에 이르렀습니다. 이를 극복하기 위해 우리는 Golden Goose를 제안합니다. 이는 채우기-중간-빈칸(fill-in-the-middle) 과업을 객관식 문제 풀이 형태로 변환하여 검증 불가능한 인터넷 텍스트로부터 무제한의 RLVR 과업을 합성하는 간단한 기법입니다. 주어진 원본 텍스트에서 LLM을 활용해 핵심 추론 단계를 식별하고 마스킹한 후, 다양하고 그럴듯한 오답 선택지들을 생성합니다. 이를 통해 기존 RLVR 데이터 구축에서 일반적으로 제외되던 풍부한 추론 내용을 가진 검증 불가능 코퍼스(예: 과학 교과서)를 활용하여 수학, 프로그래밍, 일반 과학 분야에 걸친 70만 개 이상의 대규모 RLVR 데이터셋인 GooseReason-0.7M을 합성할 수 있었습니다. 실험적으로 GooseReason는 기존 RLVR 데이터에서 포화된 모델을 효과적으로 재활성화하여, 지속적인 RL 하에서 견고하고 꾸준한 성능 향상을 이루었으며, 15개 다양한 벤치마크에서 1.5B 및 4B-Instruct 모델에 대해 새로운 최첨단 결과를 달성했습니다. 마지막으로, 우리는 Golden Goose를 실제 환경에 적용하여, 기존 RLVR 데이터가 전혀 존재하지 않는 사이버보안 분야를 위해 원시 FineWeb 스크랩으로부터 RLVR 과업을 합성했습니다. 결과적으로 생성된 GooseReason-Cyber 데이터로 Qwen3-4B-Instruct 모델을 훈련한 결과, 방대한 도메인 특화 사전 훈련 및 사후 훈련을 거친 7B 규모의 도메인 전문 모델을 능가하는 사이버보안 분야 새로운 최첨단 성능을 기록했습니다. 이는 풍부한 추론 내용을 가진 검증 불가능한 인터넷 텍스트를 활용하여 RLVR 데이터를 자동으로 확장할 수 있는 잠재력을 강조합니다.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has become a cornerstone for unlocking complex reasoning in Large Language Models (LLMs). Yet, scaling up RL is bottlenecked by limited existing verifiable data, where improvements increasingly saturate over prolonged training. To overcome this, we propose Golden Goose, a simple trick to synthesize unlimited RLVR tasks from unverifiable internet text by constructing a multiple-choice question-answering version of the fill-in-the-middle task. Given a source text, we prompt an LLM to identify and mask key reasoning steps, then generate a set of diverse, plausible distractors. This enables us to leverage reasoning-rich unverifiable corpora typically excluded from prior RLVR data construction (e.g., science textbooks) to synthesize GooseReason-0.7M, a large-scale RLVR dataset with over 0.7 million tasks spanning mathematics, programming, and general scientific domains. Empirically, GooseReason effectively revives models saturated on existing RLVR data, yielding robust, sustained gains under continuous RL and achieving new state-of-the-art results for 1.5B and 4B-Instruct models across 15 diverse benchmarks. Finally, we deploy Golden Goose in a real-world setting, synthesizing RLVR tasks from raw FineWeb scrapes for the cybersecurity domain, where no prior RLVR data exists. Training Qwen3-4B-Instruct on the resulting data GooseReason-Cyber sets a new state-of-the-art in cybersecurity, surpassing a 7B domain-specialized model with extensive domain-specific pre-training and post-training. This highlights the potential of automatically scaling up RLVR data by exploiting abundant, reasoning-rich, unverifiable internet text.