R-Zero: Modelo de Linguagem de Raciocínio de Auto-evolução a partir de Dados Zero
R-Zero: Self-Evolving Reasoning LLM from Zero Data
August 7, 2025
Autores: Chengsong Huang, Wenhao Yu, Xiaoyang Wang, Hongming Zhang, Zongxia Li, Ruosen Li, Jiaxin Huang, Haitao Mi, Dong Yu
cs.AI
Resumo
Modelos de Linguagem de Grande Escala (LLMs) auto-evolutivos oferecem um caminho escalável em direção à superinteligência, gerando, refinando e aprendendo de forma autônoma com suas próprias experiências. No entanto, os métodos existentes para treinar tais modelos ainda dependem fortemente de tarefas e rótulos vastamente curados por humanos, tipicamente por meio de ajuste fino ou aprendizado por reforço, o que representa um gargalo fundamental para o avanço de sistemas de IA em direção a capacidades além da inteligência humana. Para superar essa limitação, introduzimos o R-Zero, um framework totalmente autônomo que gera seus próprios dados de treinamento do zero. A partir de um único LLM base, o R-Zero inicializa dois modelos independentes com papéis distintos, um Desafiador e um Solucionador. Esses modelos são otimizados separadamente e co-evoluem por meio da interação: o Desafiador é recompensado por propor tarefas próximas ao limite da capacidade do Solucionador, e o Solucionador é recompensado por resolver tarefas cada vez mais desafiadoras propostas pelo Desafiador. Esse processo resulta em um currículo direcionado e auto-melhorado, sem a necessidade de tarefas e rótulos pré-existentes. Empiricamente, o R-Zero melhora substancialmente a capacidade de raciocínio em diferentes LLMs de base, por exemplo, aumentando o Qwen3-4B-Base em +6,49 em benchmarks de raciocínio matemático e +7,54 em benchmarks de raciocínio de domínio geral.
English
Self-evolving Large Language Models (LLMs) offer a scalable path toward
super-intelligence by autonomously generating, refining, and learning from
their own experiences. However, existing methods for training such models still
rely heavily on vast human-curated tasks and labels, typically via fine-tuning
or reinforcement learning, which poses a fundamental bottleneck to advancing AI
systems toward capabilities beyond human intelligence. To overcome this
limitation, we introduce R-Zero, a fully autonomous framework that generates
its own training data from scratch. Starting from a single base LLM, R-Zero
initializes two independent models with distinct roles, a Challenger and a
Solver. These models are optimized separately and co-evolve through
interaction: the Challenger is rewarded for proposing tasks near the edge of
the Solver capability, and the Solver is rewarded for solving increasingly
challenging tasks posed by the Challenger. This process yields a targeted,
self-improving curriculum without any pre-existing tasks and labels.
Empirically, R-Zero substantially improves reasoning capability across
different backbone LLMs, e.g., boosting the Qwen3-4B-Base by +6.49 on
math-reasoning benchmarks and +7.54 on general-domain reasoning benchmarks.