R-Zero: Саморазвивающаяся языковая модель с нулевыми данными для логических рассуждений
R-Zero: Self-Evolving Reasoning LLM from Zero Data
August 7, 2025
Авторы: Chengsong Huang, Wenhao Yu, Xiaoyang Wang, Hongming Zhang, Zongxia Li, Ruosen Li, Jiaxin Huang, Haitao Mi, Dong Yu
cs.AI
Аннотация
Саморазвивающиеся большие языковые модели (LLM) предлагают масштабируемый путь к сверхинтеллекту за счет автономного создания, уточнения и обучения на основе собственного опыта. Однако существующие методы обучения таких моделей по-прежнему в значительной степени зависят от огромного количества задач и меток, созданных человеком, обычно посредством тонкой настройки или обучения с подкреплением, что создает фундаментальное ограничение для развития ИИ-систем в направлении возможностей, превосходящих человеческий интеллект. Чтобы преодолеть это ограничение, мы представляем R-Zero — полностью автономную структуру, которая генерирует свои собственные обучающие данные с нуля. Начиная с одной базовой LLM, R-Zero инициализирует две независимые модели с различными ролями: «Вызов» и «Решатель». Эти модели оптимизируются отдельно и совместно развиваются через взаимодействие: «Вызов» вознаграждается за предложение задач на границе возможностей «Решателя», а «Решатель» вознаграждается за решение все более сложных задач, поставленных «Вызовом». Этот процесс создает целенаправленную, самоулучшающуюся учебную программу без каких-либо заранее существующих задач и меток. Эмпирически R-Zero значительно улучшает способность к рассуждению в различных базовых LLM, например, повышая показатели Qwen3-4B-Base на +6,49 в тестах на математическое рассуждение и на +7,54 в тестах на общее рассуждение.
English
Self-evolving Large Language Models (LLMs) offer a scalable path toward
super-intelligence by autonomously generating, refining, and learning from
their own experiences. However, existing methods for training such models still
rely heavily on vast human-curated tasks and labels, typically via fine-tuning
or reinforcement learning, which poses a fundamental bottleneck to advancing AI
systems toward capabilities beyond human intelligence. To overcome this
limitation, we introduce R-Zero, a fully autonomous framework that generates
its own training data from scratch. Starting from a single base LLM, R-Zero
initializes two independent models with distinct roles, a Challenger and a
Solver. These models are optimized separately and co-evolve through
interaction: the Challenger is rewarded for proposing tasks near the edge of
the Solver capability, and the Solver is rewarded for solving increasingly
challenging tasks posed by the Challenger. This process yields a targeted,
self-improving curriculum without any pre-existing tasks and labels.
Empirically, R-Zero substantially improves reasoning capability across
different backbone LLMs, e.g., boosting the Qwen3-4B-Base by +6.49 on
math-reasoning benchmarks and +7.54 on general-domain reasoning benchmarks.