Chain-of-Agents: Сквозные базовые модели агентов через дистилляцию мультиагентных систем и агентное обучение с подкреплением
Chain-of-Agents: End-to-End Agent Foundation Models via Multi-Agent Distillation and Agentic RL
August 6, 2025
Авторы: Weizhen Li, Jianbo Lin, Zhuosong Jiang, Jingyi Cao, Xinpeng Liu, Jiayu Zhang, Zhenqiang Huang, Qianben Chen, Weichen Sun, Qiexiang Wang, Hongxuan Lu, Tianrui Qin, Chenghao Zhu, Yi Yao, Shuying Fan, Xiaowan Li, Tiannan Wang, Pai Liu, King Zhu, He Zhu, Dingfeng Shi, Piaohong Wang, Yeyi Guan, Xiangru Tang, Minghao Liu, Yuchen Eleanor Jiang, Jian Yang, Jiaheng Liu, Ge Zhang, Wangchunshu Zhou
cs.AI
Аннотация
Последние достижения в области больших языковых моделей (LLM) и мультиагентных систем продемонстрировали впечатляющие возможности в решении сложных задач, таких как глубокие исследования, вибро-кодирование и математические рассуждения. Однако большинство существующих мультиагентных систем построены на основе ручной разработки промптов/рабочих процессов с использованием сложных агентских фреймворков, что делает их вычислительно неэффективными, менее способными и неспособными извлекать выгоду из обучения, ориентированного на данные. В данной работе мы представляем Chain-of-Agents (CoA), новую парадигму рассуждений LLM, которая позволяет решать сложные задачи в нативном end-to-end режиме, аналогично мультиагентной системе (т.е. многошаговое решение задач с использованием множества инструментов и агентов) в рамках одной модели. В процессе решения задач по цепочке агентов модель динамически активирует различных инструментальных агентов и агентов, играющих роли, чтобы симулировать мультиагентное сотрудничество в end-to-end режиме. Для развития способностей LLM к end-to-end решению задач по цепочке агентов мы представляем фреймворк дистилляции мультиагентных систем, который преобразует передовые мультиагентные системы в траектории цепочки агентов для агентского контролируемого тонкого обучения. Затем мы используем агентское обучение с подкреплением на проверяемых агентских задачах, чтобы дополнительно улучшить способности моделей к решению задач по цепочке агентов. Полученные модели мы называем Agent Foundation Models (AFMs). Наши эмпирические исследования показывают, что AFM устанавливает новые рекорды производительности на различных бенчмарках как в веб-агентских, так и в кодовых агентских сценариях. Мы полностью открываем исходный код всего исследования, включая веса моделей, код для обучения и оценки, а также обучающие данные, что предоставляет прочную основу для будущих исследований агентских моделей и агентского обучения с подкреплением.
English
Recent advances in large language models (LLMs) and multi-agent systems have
demonstrated remarkable capabilities in complex problem-solving tasks such as
deep research, vibe coding, and mathematical reasoning. However, most existing
multi-agent systems are built upon manual prompt/workflow engineering with
sophisticated agent frameworks, making them computationally inefficient, less
capable, and can not benefit from data-centric learning. In this work, we
introduce Chain-of-Agents (CoA), a novel paradigm of LLM reasoning that enables
native end-to-end complex problem-solving in the same way as a multi-agent
system (i.e., multi-turn problem solving with multiple tools and multiple
agents) within one model. In chain-of-agents problem-solving, the model
dynamically activates different tool agents and role-playing agents to simulate
multi-agent collaboration in an end-to-end fashion. To elicit end-to-end
chain-of-agents problem-solving abilities in LLMs, we introduce a multi-agent
distillation framework to distill state-of-the-art multi-agent systems into
chain-of-agents trajectories for agentic supervised fine-tuning. We then use
agentic reinforcement learning on verifiable agentic tasks to further improve
the models' capabilities on chain-of-agents problem solving. We call the
resulting models Agent Foundation Models (AFMs). Our empirical studies
demonstrate that AFM establishes new state-of-the-art performance across
diverse benchmarks in both web agent and code agent settings. We make the
entire research, including the model weights, code for training and evaluation,
and the training data, fully open-sourced, which offers a solid starting point
for future research on agent models and agentic RL.