R-Zero: Саморазвивающаяся языковая модель с нулевыми данными для логических рассуждений

Аннотация

Саморазвивающиеся большие языковые модели (LLM) предлагают масштабируемый путь к сверхинтеллекту за счет автономного создания, уточнения и обучения на основе собственного опыта. Однако существующие методы обучения таких моделей по-прежнему в значительной степени зависят от огромного количества задач и меток, созданных человеком, обычно посредством тонкой настройки или обучения с подкреплением, что создает фундаментальное ограничение для развития ИИ-систем в направлении возможностей, превосходящих человеческий интеллект. Чтобы преодолеть это ограничение, мы представляем R-Zero — полностью автономную структуру, которая генерирует свои собственные обучающие данные с нуля. Начиная с одной базовой LLM, R-Zero инициализирует две независимые модели с различными ролями: «Вызов» и «Решатель». Эти модели оптимизируются отдельно и совместно развиваются через взаимодействие: «Вызов» вознаграждается за предложение задач на границе возможностей «Решателя», а «Решатель» вознаграждается за решение все более сложных задач, поставленных «Вызовом». Этот процесс создает целенаправленную, самоулучшающуюся учебную программу без каких-либо заранее существующих задач и меток. Эмпирически R-Zero значительно улучшает способность к рассуждению в различных базовых LLM, например, повышая показатели Qwen3-4B-Base на +6,49 в тестах на математическое рассуждение и на +7,54 в тестах на общее рассуждение.

English

Self-evolving Large Language Models (LLMs) offer a scalable path toward super-intelligence by autonomously generating, refining, and learning from their own experiences. However, existing methods for training such models still rely heavily on vast human-curated tasks and labels, typically via fine-tuning or reinforcement learning, which poses a fundamental bottleneck to advancing AI systems toward capabilities beyond human intelligence. To overcome this limitation, we introduce R-Zero, a fully autonomous framework that generates its own training data from scratch. Starting from a single base LLM, R-Zero initializes two independent models with distinct roles, a Challenger and a Solver. These models are optimized separately and co-evolve through interaction: the Challenger is rewarded for proposing tasks near the edge of the Solver capability, and the Solver is rewarded for solving increasingly challenging tasks posed by the Challenger. This process yields a targeted, self-improving curriculum without any pre-existing tasks and labels. Empirically, R-Zero substantially improves reasoning capability across different backbone LLMs, e.g., boosting the Qwen3-4B-Base by +6.49 on math-reasoning benchmarks and +7.54 on general-domain reasoning benchmarks.

R-Zero: Саморазвивающаяся языковая модель с нулевыми данными для логических рассуждений

R-Zero: Self-Evolving Reasoning LLM from Zero Data

Аннотация

Support