ChatPaper.aiChatPaper

Агент0: Освобождение саморазвивающихся агентов с нулевыми данными через инструментально-интегрированное рассуждение

Agent0: Unleashing Self-Evolving Agents from Zero Data via Tool-Integrated Reasoning

November 20, 2025
Авторы: Peng Xia, Kaide Zeng, Jiaqi Liu, Can Qin, Fang Wu, Yiyang Zhou, Caiming Xiong, Huaxiu Yao
cs.AI

Аннотация

Агенты больших языковых моделей (LLМ), часто обучаемые с подкреплением (RL), ограничены зависимостью от данных, курируемых человеком, что сужает масштабируемость и привязывает ИИ к человеческим знаниям. Существующие фреймворки саморазвития предлагают альтернативу, но обычно ограничены врожденными возможностями модели и однораундовыми взаимодействиями, что препятствует разработке сложных учебных планов, включающих использование инструментов или динамические рассуждения. Мы представляем Agent0 — полностью автономный фреймворк, который развивает высокопроизводительных агентов без внешних данных посредством многошаговой коэволюции и бесшовной интеграции инструментов. Agent0 устанавливает симбиотическое соревнование между двумя агентами, инициализированными из одной базовой LLМ: агентом-разработчиком учебного плана, который предлагает все более сложные фронтирные задачи, и агентом-исполнителем, который учится их решать. Мы интегрируем внешние инструменты для расширения способностей исполнителя к решению задач; это улучшение, в свою очередь, стимулирует агента-разработчика создавать более сложные, учитывающие инструменты задания. Посредством этого итеративного процесса Agent0 устанавливает самоподкрепляющийся цикл, непрерывно производящий высококачественные учебные планы. Эмпирически Agent0 существенно повышает способности к рассуждению, улучшая модель Qwen3-8B-Base на 18% в математических рассуждениях и на 24% в общих бенчмарках на рассуждение. Код доступен по адресу https://github.com/aiming-lab/Agent0.
English
Large Language Model (LLM) Agents, often trained with Reinforcement Learning (RL), are constrained by a dependency on human-curated data, limiting scalability and tethering AI to human knowledge. Existing self-evolution frameworks offer an alternative but are typically restricted by the model's inherent capabilities and single-round interactions, hindering the development of complex curricula involving tool use or dynamic reasoning. We introduce Agent0, a fully autonomous framework that evolves high-performing agents without external data through multi-step co-evolution and seamless tool integration. Agent0 establishes a symbiotic competition between two agents initialized from the same base LLM: a curriculum agent that proposes increasingly challenging frontier tasks, and an executor agent that learns to solve them. We integrate external tools to enhance the executor's problem-solving capacity; this improvement, in turn, pressures the curriculum agent to construct more complex, tool-aware tasks. Through this iterative process, Agent0 establishes a self-reinforcing cycle that continuously produces high-quality curricula. Empirically, Agent0 substantially boosts reasoning capabilities, improving the Qwen3-8B-Base model by 18% on mathematical reasoning and 24% on general reasoning benchmarks. Code is available at https://github.com/aiming-lab/Agent0.
PDF974December 1, 2025