Инструмент-R0: Саморазвивающиеся агенты на основе больших языковых моделей для освоения инструментов с нулевыми исходными данными

Аннотация

Крупные языковые модели (LLM) становятся основой для автономных агентов, способных использовать инструменты для решения сложных задач. Обучение с подкреплением (RL) стало распространенным подходом для внедрения таких агентских возможностей, но обычно в строго контролируемых условиях обучения. Оно часто зависит от тщательно составленных пар "задача-решение" и значительного человеческого контроля, что создает фундаментальное препятствие для открытого саморазвития в направлении сверхразумных систем. В данной статье мы предлагаем фреймворк Tool-R0 для обучения агентов общего назначения, вызывающих инструменты, с нуля с помощью RL и самодостаточной игры (self-play) в предположении об отсутствии исходных данных (zero-data). Инициализированные из одной базовой LLM, Tool-R0 совместно развивает Генератор и Решатель с комплементарными вознаграждениями: один предлагает целенаправленные сложные задачи на границе компетенции другого, а другой учится решать их с помощью вызовов реальных инструментов. Это создает самовоспроизводящийся цикл, не требующий предварительно существующих задач или наборов данных. Оценка на различных бенчмарках использования инструментов показывает, что Tool-R0 обеспечивает относительное улучшение на 92.5% по сравнению с базовой моделью и превосходит полностью контролируемые базовые линии по вызову инструментов в тех же условиях. Наша работа также предоставляет эмпирические инсайты о LLM-агентах с самодостаточной игрой за счет анализа коэволюции, динамики учебного плана (curriculum) и масштабируемости.

English

Large language models (LLMs) are becoming the foundation for autonomous agents that can use tools to solve complex tasks. Reinforcement learning (RL) has emerged as a common approach for injecting such agentic capabilities, but typically under tightly controlled training setups. It often depends on carefully constructed task-solution pairs and substantial human supervision, which creates a fundamental obstacle to open-ended self-evolution toward superintelligent systems. In this paper, we propose Tool-R0 framework for training general purpose tool-calling agents from scratch with self-play RL, under a zero-data assumption. Initialized from the same base LLM, Tool-R0 co-evolves a Generator and a Solver with complementary rewards: one proposes targeted challenging tasks at the other's competence frontier and the other learns to solve them with real-world tool calls. This creates a self-evolving cycle that requires no pre-existing tasks or datasets. Evaluation on different tool-use benchmarks show that Tool-R0 yields 92.5 relative improvement over the base model and surpasses fully supervised tool-calling baselines under the same setting. Our work further provides empirical insights into self-play LLM agents by analyzing co-evolution, curriculum dynamics, and scaling behavior.

Инструмент-R0: Саморазвивающиеся агенты на основе больших языковых моделей для освоения инструментов с нулевыми исходными данными

Tool-R0: Self-Evolving LLM Agents for Tool-Learning from Zero Data

Аннотация

Support