ChatPaper.aiChatPaper

Agent0: 도구 통합 추론을 통해 데이터 없이 자가 진화 에이전트 구축하기

Agent0: Unleashing Self-Evolving Agents from Zero Data via Tool-Integrated Reasoning

November 20, 2025
저자: Peng Xia, Kaide Zeng, Jiaqi Liu, Can Qin, Fang Wu, Yiyang Zhou, Caiming Xiong, Huaxiu Yao
cs.AI

초록

대규모 언어 모델(LLM) 에이전트는 일반적으로 강화 학습(RL)을 통해 훈련되며, 인간이 정제한 데이터에 대한 의존성으로 인해 확장성이 제한되고 AI가 인간의 지식에 얽매이는 한계를 가집니다. 기존의 자기 진화 프레임워크는 대안을 제공하지만, 모델의 고유한 능력과 단일 라운드 상호작용에 의해 제약을 받아 도구 사용이나 동적 추론을 포함한 복잡한 커리큘럼 개발을 저해합니다. 본 연구에서는 외부 데이터 없이 다단계 공동 진화와 원활한 도구 통합을 통해 고성능 에이전트를 진화시키는 완전 자율 프레임워크인 Agent0를 소개합니다. Agent0는 동일한 기본 LLM에서 초기화된 두 에이전트 간의 공생적 경쟁을 설정합니다: 점점 더 어려운 최첨단 과제를 제안하는 커리큘럼 에이전트와 이를 해결하는 방법을 학습하는 실행자 에이전트입니다. 우리는 실행자의 문제 해결 능력을 향상시키기 위해 외부 도구를 통합하며, 이러한 개선은 차례로 커리큘럼 에이전트가 더 복잡하고 도구 인식적인 과제를 구성하도록 압박합니다. 이러한 반복적 과정을 통해 Agent0는 고품질 커리큘럼을 지속적으로 생성하는 자기 강화 순환 구조를 구축합니다. 실험적으로 Agent0는 추론 능력을 크게 향상시켜, Qwen3-8B-Base 모델의 수학적 추론 성능을 18%, 일반 추론 벤치마크에서 24% 개선했습니다. 코드는 https://github.com/aiming-lab/Agent0에서 확인할 수 있습니다.
English
Large Language Model (LLM) Agents, often trained with Reinforcement Learning (RL), are constrained by a dependency on human-curated data, limiting scalability and tethering AI to human knowledge. Existing self-evolution frameworks offer an alternative but are typically restricted by the model's inherent capabilities and single-round interactions, hindering the development of complex curricula involving tool use or dynamic reasoning. We introduce Agent0, a fully autonomous framework that evolves high-performing agents without external data through multi-step co-evolution and seamless tool integration. Agent0 establishes a symbiotic competition between two agents initialized from the same base LLM: a curriculum agent that proposes increasingly challenging frontier tasks, and an executor agent that learns to solve them. We integrate external tools to enhance the executor's problem-solving capacity; this improvement, in turn, pressures the curriculum agent to construct more complex, tool-aware tasks. Through this iterative process, Agent0 establishes a self-reinforcing cycle that continuously produces high-quality curricula. Empirically, Agent0 substantially boosts reasoning capabilities, improving the Qwen3-8B-Base model by 18% on mathematical reasoning and 24% on general reasoning benchmarks. Code is available at https://github.com/aiming-lab/Agent0.
PDF974December 1, 2025