Tool-R0: Agenti LLM Auto-Evolventi per l'Apprendimento di Strumenti Partendo da Zero Dati

Abstract

I grandi modelli linguistici (LLM) stanno diventando la base per agenti autonomi in grado di utilizzare strumenti per risolvere compiti complessi. L'apprendimento per rinforzo (RL) è emerso come un approccio comune per infondere tali capacità agentive, ma tipicamente in contesti di addestramento strettamente controllati. Questo metodo dipende spesso da coppie compito-soluzione accuratamente costruite e da una sostanziale supervisione umana, il che crea un ostacolo fondamentale verso un'auto-evoluzione aperta in direzione di sistemi superintelligenti. In questo articolo, proponiamo il framework Tool-R0 per addestrare agenti general-purpose per l'uso di strumenti da zero con RL di auto-gioco, sotto un'assunzione di dati zero. Inizializzato dallo stesso LLM di base, Tool-R0 co-evolve un Generatore e un Risolutore con ricompense complementari: uno propone compiti impegnativi e mirati al limite delle competenze dell'altro, e l'altro impara a risolverli effettuando chiamate a strumenti del mondo reale. Ciò crea un ciclo di auto-evoluzione che non richiede compiti o dataset preesistenti. La valutazione su diversi benchmark di utilizzo di strumenti mostra che Tool-R0 produce un miglioramento relativo del 92,5% rispetto al modello base e supera i baseline di chiamata a strumenti completamente supervisionati nelle stesse condizioni. Il nostro lavoro fornisce inoltre approfondimenti empirici sugli agenti LLM ad auto-gioco analizzando la co-evoluzione, le dinamiche del curriculum e il comportamento di scaling.

English

Large language models (LLMs) are becoming the foundation for autonomous agents that can use tools to solve complex tasks. Reinforcement learning (RL) has emerged as a common approach for injecting such agentic capabilities, but typically under tightly controlled training setups. It often depends on carefully constructed task-solution pairs and substantial human supervision, which creates a fundamental obstacle to open-ended self-evolution toward superintelligent systems. In this paper, we propose Tool-R0 framework for training general purpose tool-calling agents from scratch with self-play RL, under a zero-data assumption. Initialized from the same base LLM, Tool-R0 co-evolves a Generator and a Solver with complementary rewards: one proposes targeted challenging tasks at the other's competence frontier and the other learns to solve them with real-world tool calls. This creates a self-evolving cycle that requires no pre-existing tasks or datasets. Evaluation on different tool-use benchmarks show that Tool-R0 yields 92.5 relative improvement over the base model and surpasses fully supervised tool-calling baselines under the same setting. Our work further provides empirical insights into self-play LLM agents by analyzing co-evolution, curriculum dynamics, and scaling behavior.

Tool-R0: Agenti LLM Auto-Evolventi per l'Apprendimento di Strumenti Partendo da Zero Dati

Tool-R0: Self-Evolving LLM Agents for Tool-Learning from Zero Data

Abstract

Support