R-Zero:ゼロデータからの自己進化型推論LLM
R-Zero: Self-Evolving Reasoning LLM from Zero Data
August 7, 2025
著者: Chengsong Huang, Wenhao Yu, Xiaoyang Wang, Hongming Zhang, Zongxia Li, Ruosen Li, Jiaxin Huang, Haitao Mi, Dong Yu
cs.AI
要旨
自己進化型大規模言語モデル(LLM)は、自らの経験を自律的に生成、洗練し、学習することで、超知能へのスケーラブルな道を提供します。しかし、そのようなモデルを訓練する既存の手法は、依然として人間が手作業で作成した膨大なタスクとラベルに大きく依存しており、典型的にはファインチューニングや強化学習を介して行われます。これは、人間の知能を超えた能力を持つAIシステムを進化させる上で根本的なボトルネックとなっています。この制限を克服するため、我々はR-Zeroを導入します。R-Zeroは、完全に自律的なフレームワークであり、ゼロから自らの訓練データを生成します。単一のベースLLMから始め、R-Zeroは2つの独立したモデルを異なる役割で初期化します。それらはChallenger(挑戦者)とSolver(解決者)です。これらのモデルは別々に最適化され、相互作用を通じて共進化します。Challengerは、Solverの能力の限界に近いタスクを提案することで報酬を受け取り、SolverはChallengerが提示するますます難易度の高いタスクを解決することで報酬を受け取ります。このプロセスにより、事前に存在するタスクやラベルなしで、ターゲットを絞った自己改善型のカリキュラムが生成されます。実験的に、R-Zeroは異なるバックボーンLLMの推論能力を大幅に向上させることが示されています。例えば、Qwen3-4B-Baseにおいて、数学的推論ベンチマークで+6.49、一般領域の推論ベンチマークで+7.54の向上が見られました。
English
Self-evolving Large Language Models (LLMs) offer a scalable path toward
super-intelligence by autonomously generating, refining, and learning from
their own experiences. However, existing methods for training such models still
rely heavily on vast human-curated tasks and labels, typically via fine-tuning
or reinforcement learning, which poses a fundamental bottleneck to advancing AI
systems toward capabilities beyond human intelligence. To overcome this
limitation, we introduce R-Zero, a fully autonomous framework that generates
its own training data from scratch. Starting from a single base LLM, R-Zero
initializes two independent models with distinct roles, a Challenger and a
Solver. These models are optimized separately and co-evolve through
interaction: the Challenger is rewarded for proposing tasks near the edge of
the Solver capability, and the Solver is rewarded for solving increasingly
challenging tasks posed by the Challenger. This process yields a targeted,
self-improving curriculum without any pre-existing tasks and labels.
Empirically, R-Zero substantially improves reasoning capability across
different backbone LLMs, e.g., boosting the Qwen3-4B-Base by +6.49 on
math-reasoning benchmarks and +7.54 on general-domain reasoning benchmarks.