R-Zero: Zelf-evoluerend redenerend LLM zonder initiële data
R-Zero: Self-Evolving Reasoning LLM from Zero Data
August 7, 2025
Auteurs: Chengsong Huang, Wenhao Yu, Xiaoyang Wang, Hongming Zhang, Zongxia Li, Ruosen Li, Jiaxin Huang, Haitao Mi, Dong Yu
cs.AI
Samenvatting
Zelf-ontwikkelende Large Language Models (LLMs) bieden een schaalbare weg naar superintelligentie door autonoom ervaringen te genereren, te verfijnen en ervan te leren. Bestaande methoden voor het trainen van dergelijke modellen zijn echter nog sterk afhankelijk van uitgebreide, door mensen samengestelde taken en labels, meestal via fine-tuning of reinforcement learning, wat een fundamenteel knelpunt vormt voor het bevorderen van AI-systemen naar capaciteiten die verder gaan dan menselijke intelligentie. Om deze beperking te overwinnen, introduceren we R-Zero, een volledig autonoom framework dat zijn eigen trainingsdata vanaf nul genereert. Uitgaande van een enkele basis-LLM, initialiseert R-Zero twee onafhankelijke modellen met verschillende rollen, een Uitdager en een Oplosser. Deze modellen worden afzonderlijk geoptimaliseerd en co-evolueren door interactie: de Uitdager wordt beloond voor het voorstellen van taken aan de rand van de capaciteit van de Oplosser, en de Oplosser wordt beloond voor het oplossen van steeds uitdagendere taken die door de Uitdager worden gesteld. Dit proces resulteert in een gericht, zelfverbeterend curriculum zonder vooraf bestaande taken en labels. Empirisch gezien verbetert R-Zero de redeneercapaciteit aanzienlijk over verschillende backbone-LLMs, bijvoorbeeld door Qwen3-4B-Base met +6,49 te verbeteren op wiskundige redeneerbenchmarks en met +7,54 op algemene redeneerbenchmarks.
English
Self-evolving Large Language Models (LLMs) offer a scalable path toward
super-intelligence by autonomously generating, refining, and learning from
their own experiences. However, existing methods for training such models still
rely heavily on vast human-curated tasks and labels, typically via fine-tuning
or reinforcement learning, which poses a fundamental bottleneck to advancing AI
systems toward capabilities beyond human intelligence. To overcome this
limitation, we introduce R-Zero, a fully autonomous framework that generates
its own training data from scratch. Starting from a single base LLM, R-Zero
initializes two independent models with distinct roles, a Challenger and a
Solver. These models are optimized separately and co-evolve through
interaction: the Challenger is rewarded for proposing tasks near the edge of
the Solver capability, and the Solver is rewarded for solving increasingly
challenging tasks posed by the Challenger. This process yields a targeted,
self-improving curriculum without any pre-existing tasks and labels.
Empirically, R-Zero substantially improves reasoning capability across
different backbone LLMs, e.g., boosting the Qwen3-4B-Base by +6.49 on
math-reasoning benchmarks and +7.54 on general-domain reasoning benchmarks.