R-Zero: 제로 데이터에서 자가 진화하는 추론 대형 언어 모델
R-Zero: Self-Evolving Reasoning LLM from Zero Data
August 7, 2025
저자: Chengsong Huang, Wenhao Yu, Xiaoyang Wang, Hongming Zhang, Zongxia Li, Ruosen Li, Jiaxin Huang, Haitao Mi, Dong Yu
cs.AI
초록
자기 진화형 대규모 언어 모델(LLMs)은 자율적으로 경험을 생성, 개선, 학습함으로써 초지능으로 나아가는 확장 가능한 경로를 제공합니다. 그러나 이러한 모델을 훈련시키기 위한 기존 방법들은 여전히 인간이 큐레이션한 방대한 작업과 레이블에 크게 의존하고 있으며, 일반적으로 미세 조정(fine-tuning)이나 강화 학습(reinforcement learning)을 통해 이루어집니다. 이는 인간 지능을 넘어서는 AI 시스템의 능력을 발전시키는 데 근본적인 병목 현상을 야기합니다. 이러한 한계를 극복하기 위해, 우리는 처음부터 자체 훈련 데이터를 생성하는 완전 자율 프레임워크인 R-Zero를 소개합니다. 단일 기본 LLM에서 시작하여, R-Zero는 서로 다른 역할을 가진 두 개의 독립적인 모델인 Challenger와 Solver를 초기화합니다. 이 모델들은 별도로 최적화되며 상호작용을 통해 공동 진화합니다: Challenger는 Solver의 능력 한계 근처에서 작업을 제안하는 데 보상을 받고, Solver는 Challenger가 제시한 점점 더 어려운 작업을 해결하는 데 보상을 받습니다. 이 과정은 사전에 존재하는 작업과 레이블 없이도 목표 지향적이고 자기 개선적인 커리큘럼을 생성합니다. 실험적으로, R-Zero는 다양한 백본 LLM에서 추론 능력을 크게 향상시켰으며, 예를 들어 Qwen3-4B-Base 모델의 경우 수학 추론 벤치마크에서 +6.49, 일반 도메인 추론 벤치마크에서 +7.54의 성능 향상을 보였습니다.
English
Self-evolving Large Language Models (LLMs) offer a scalable path toward
super-intelligence by autonomously generating, refining, and learning from
their own experiences. However, existing methods for training such models still
rely heavily on vast human-curated tasks and labels, typically via fine-tuning
or reinforcement learning, which poses a fundamental bottleneck to advancing AI
systems toward capabilities beyond human intelligence. To overcome this
limitation, we introduce R-Zero, a fully autonomous framework that generates
its own training data from scratch. Starting from a single base LLM, R-Zero
initializes two independent models with distinct roles, a Challenger and a
Solver. These models are optimized separately and co-evolve through
interaction: the Challenger is rewarded for proposing tasks near the edge of
the Solver capability, and the Solver is rewarded for solving increasingly
challenging tasks posed by the Challenger. This process yields a targeted,
self-improving curriculum without any pre-existing tasks and labels.
Empirically, R-Zero substantially improves reasoning capability across
different backbone LLMs, e.g., boosting the Qwen3-4B-Base by +6.49 on
math-reasoning benchmarks and +7.54 on general-domain reasoning benchmarks.