Tool-R0: Agentes de LLM Auto-Evolutivos para Aprendizado de Ferramentas a Partir de Dados Zero

Resumo

Os grandes modelos de linguagem (LLMs) estão se tornando a base para agentes autônomos capazes de utilizar ferramentas para resolver tarefas complexas. O aprendizado por reforço (RL) surgiu como uma abordagem comum para injetar tais capacidades agentivas, mas normalmente em configurações de treinamento rigidamente controladas. Ele frequentemente depende de pares tarefa-solução cuidadosamente construídos e de substancial supervisão humana, o que cria um obstáculo fundamental à auto-evolução aberta em direção a sistemas superinteligentes. Neste artigo, propomos o framework Tool-R0 para treinar agentes de uso geral de ferramentas do zero com RL de auto-jogo, sob uma premissa de dados zero. Inicializado a partir do mesmo LLM base, o Tool-R0 co-evolui um Gerador e um Solucionador com recompensas complementares: um propõe tarefas desafiadoras direcionadas no limite de competência do outro, e o outro aprende a resolvê-las com chamadas de ferramentas do mundo real. Isso cria um ciclo de auto-evolução que não requer tarefas ou conjuntos de dados preexistentes. A avaliação em diferentes benchmarks de uso de ferramentas mostra que o Tool-R0 produz uma melhoria relativa de 92,5% sobre o modelo base e supera linhas de base de chamada de ferramentas totalmente supervisionadas sob a mesma configuração. Nosso trabalho fornece ainda insights empíricos sobre agentes LLM de auto-jogo através da análise da co-evolução, dinâmicas de currículo e comportamento de escalonamento.

English

Large language models (LLMs) are becoming the foundation for autonomous agents that can use tools to solve complex tasks. Reinforcement learning (RL) has emerged as a common approach for injecting such agentic capabilities, but typically under tightly controlled training setups. It often depends on carefully constructed task-solution pairs and substantial human supervision, which creates a fundamental obstacle to open-ended self-evolution toward superintelligent systems. In this paper, we propose Tool-R0 framework for training general purpose tool-calling agents from scratch with self-play RL, under a zero-data assumption. Initialized from the same base LLM, Tool-R0 co-evolves a Generator and a Solver with complementary rewards: one proposes targeted challenging tasks at the other's competence frontier and the other learns to solve them with real-world tool calls. This creates a self-evolving cycle that requires no pre-existing tasks or datasets. Evaluation on different tool-use benchmarks show that Tool-R0 yields 92.5 relative improvement over the base model and surpasses fully supervised tool-calling baselines under the same setting. Our work further provides empirical insights into self-play LLM agents by analyzing co-evolution, curriculum dynamics, and scaling behavior.

Tool-R0: Agentes de LLM Auto-Evolutivos para Aprendizado de Ferramentas a Partir de Dados Zero

Tool-R0: Self-Evolving LLM Agents for Tool-Learning from Zero Data

Resumo

Support