ChatPaper.aiChatPaper

R-Zero: Modello Linguistico di Ragionamento Auto-Evolvente a Partire da Zero Dati

R-Zero: Self-Evolving Reasoning LLM from Zero Data

August 7, 2025
Autori: Chengsong Huang, Wenhao Yu, Xiaoyang Wang, Hongming Zhang, Zongxia Li, Ruosen Li, Jiaxin Huang, Haitao Mi, Dong Yu
cs.AI

Abstract

I Large Language Model (LLM) auto-evolventi offrono un percorso scalabile verso la super-intelligenza, generando, affinando e apprendendo in modo autonomo dalle proprie esperienze. Tuttavia, i metodi esistenti per addestrare tali modelli si basano ancora fortemente su un vasto numero di task e etichette curati dall'uomo, tipicamente attraverso il fine-tuning o l'apprendimento per rinforzo, il che rappresenta un collo di bottiglia fondamentale per far progredire i sistemi di IA verso capacità che superino l'intelligenza umana. Per superare questa limitazione, introduciamo R-Zero, un framework completamente autonomo che genera i propri dati di addestramento da zero. Partendo da un singolo LLM di base, R-Zero inizializza due modelli indipendenti con ruoli distinti: un Challenger e un Solver. Questi modelli vengono ottimizzati separatamente e co-evolvono attraverso l'interazione: il Challenger viene premiato per proporre task al limite delle capacità del Solver, mentre il Solver viene premiato per risolvere task sempre più complessi posti dal Challenger. Questo processo produce un curriculum mirato e auto-migliorante, senza alcun task o etichetta preesistente. Empiricamente, R-Zero migliora significativamente le capacità di ragionamento su diversi LLM di base, ad esempio incrementando il Qwen3-4B-Base di +6,49 su benchmark di ragionamento matematico e di +7,54 su benchmark di ragionamento in ambito generale.
English
Self-evolving Large Language Models (LLMs) offer a scalable path toward super-intelligence by autonomously generating, refining, and learning from their own experiences. However, existing methods for training such models still rely heavily on vast human-curated tasks and labels, typically via fine-tuning or reinforcement learning, which poses a fundamental bottleneck to advancing AI systems toward capabilities beyond human intelligence. To overcome this limitation, we introduce R-Zero, a fully autonomous framework that generates its own training data from scratch. Starting from a single base LLM, R-Zero initializes two independent models with distinct roles, a Challenger and a Solver. These models are optimized separately and co-evolve through interaction: the Challenger is rewarded for proposing tasks near the edge of the Solver capability, and the Solver is rewarded for solving increasingly challenging tasks posed by the Challenger. This process yields a targeted, self-improving curriculum without any pre-existing tasks and labels. Empirically, R-Zero substantially improves reasoning capability across different backbone LLMs, e.g., boosting the Qwen3-4B-Base by +6.49 on math-reasoning benchmarks and +7.54 on general-domain reasoning benchmarks.
PDF1263August 8, 2025