도구-R0: 제로 데이터에서 도구 학습을 위한 자기 진화 LLM 에이전트
Tool-R0: Self-Evolving LLM Agents for Tool-Learning from Zero Data
February 24, 2026
저자: Emre Can Acikgoz, Cheng Qian, Jonas Hübotter, Heng Ji, Dilek Hakkani-Tür, Gokhan Tur
cs.AI
초록
대규모 언어 모델(LLM)은 복잡한 작업을 해결하기 위해 도구를 활용할 수 있는 자율 에이전트의 기반으로 자리 잡아가고 있습니다. 강화 학습(RL)은 이러한 에이전트 능력을 주입하는 일반적인 접근법으로 부상했지만, 일반적으로 엄격하게 통제된 학습 설정 하에서 이루어집니다. 이는 주로 신중하게 구성된 과제-해결책 쌍과 상당한 인간의 감독에 의존하는데, 이는 초지능 시스템을 향한 개방형 자기 진화에 근본적인 장벽이 됩니다. 본 논문에서는 제로-데이터(Zero-Data) 가정 하에 셀프 플레이(자기 대결) 강화 학습을 통해 처음부터 범용 도구 호출 에이전트를 학습시키는 Tool-R0 프레임워크를 제안합니다. 동일한 기본 LLM으로 초기화된 Tool-R0는 상호 보완적인 보상을 통해 생성기(Generator)와 해결기(Solver)를 공동 진화시킵니다. 하나는 상대방의 능력 한계에 도전하는 표적 과제를 제안하고, 다른 하나는 실제 세계의 도구 호출을 통해 이를 해결하는 방법을 학습합니다. 이는 기존의 과제나 데이터셋이 필요 없는 자기 진화 순환을 생성합니다. 다양한 도구 사용 벤치마크에서의 평가 결과, Tool-R0는 기본 모델 대비 92.5%의 상대적 성능 향상을 보였으며, 동일한 설정 하에서 완전 지도 학습 기반 도구 호출 비교 모델들을 능가했습니다. 우리의 연구는 공동 진화, 커리큘럼 역학, 그리고 확장 행동을 분석함으로써 셀프 플레이 LLM 에이전트에 대한 실증적 통찰을 추가로 제공합니다.
English
Large language models (LLMs) are becoming the foundation for autonomous agents that can use tools to solve complex tasks. Reinforcement learning (RL) has emerged as a common approach for injecting such agentic capabilities, but typically under tightly controlled training setups. It often depends on carefully constructed task-solution pairs and substantial human supervision, which creates a fundamental obstacle to open-ended self-evolution toward superintelligent systems. In this paper, we propose Tool-R0 framework for training general purpose tool-calling agents from scratch with self-play RL, under a zero-data assumption. Initialized from the same base LLM, Tool-R0 co-evolves a Generator and a Solver with complementary rewards: one proposes targeted challenging tasks at the other's competence frontier and the other learns to solve them with real-world tool calls. This creates a self-evolving cycle that requires no pre-existing tasks or datasets. Evaluation on different tool-use benchmarks show that Tool-R0 yields 92.5 relative improvement over the base model and surpasses fully supervised tool-calling baselines under the same setting. Our work further provides empirical insights into self-play LLM agents by analyzing co-evolution, curriculum dynamics, and scaling behavior.