Chain-of-Agents: End-to-End Agent Foundation Models via Multi-Agent Distillatie en Agentic RL
Chain-of-Agents: End-to-End Agent Foundation Models via Multi-Agent Distillation and Agentic RL
August 6, 2025
Auteurs: Weizhen Li, Jianbo Lin, Zhuosong Jiang, Jingyi Cao, Xinpeng Liu, Jiayu Zhang, Zhenqiang Huang, Qianben Chen, Weichen Sun, Qiexiang Wang, Hongxuan Lu, Tianrui Qin, Chenghao Zhu, Yi Yao, Shuying Fan, Xiaowan Li, Tiannan Wang, Pai Liu, King Zhu, He Zhu, Dingfeng Shi, Piaohong Wang, Yeyi Guan, Xiangru Tang, Minghao Liu, Yuchen Eleanor Jiang, Jian Yang, Jiaheng Liu, Ge Zhang, Wangchunshu Zhou
cs.AI
Samenvatting
Recente vooruitgang in grote taalmodellen (LLMs) en multi-agent systemen heeft opmerkelijke capaciteiten aangetoond in complexe probleemoplossende taken zoals diepgaand onderzoek, vibe coding en wiskundig redeneren. De meeste bestaande multi-agent systemen zijn echter gebouwd op handmatige prompt-/workflow-engineering met geavanceerde agentframeworks, waardoor ze rekenkundig inefficiënt, minder capabel zijn en niet kunnen profiteren van data-gedreven leren. In dit werk introduceren we Chain-of-Agents (CoA), een nieuw paradigma van LLM-redenering dat native end-to-end complexe probleemoplossing mogelijk maakt op dezelfde manier als een multi-agent systeem (d.w.z. multi-turn probleemoplossing met meerdere tools en meerdere agents) binnen één model. Bij chain-of-agents probleemoplossing activeert het model dynamisch verschillende tool agents en rollenspelende agents om multi-agent samenwerking op een end-to-end manier te simuleren. Om end-to-end chain-of-agents probleemoplossende vaardigheden in LLMs te stimuleren, introduceren we een multi-agent distillatie framework om state-of-the-art multi-agent systemen te distilleren in chain-of-agents trajecten voor agentische supervised fine-tuning. Vervolgens gebruiken we agentische reinforcement learning op verifieerbare agentische taken om de capaciteiten van de modellen verder te verbeteren op het gebied van chain-of-agents probleemoplossing. We noemen de resulterende modellen Agent Foundation Models (AFMs). Onze empirische studies tonen aan dat AFM nieuwe state-of-the-art prestaties vestigt op diverse benchmarks in zowel web agent- als code agent-instellingen. We maken het volledige onderzoek, inclusief de modelgewichten, code voor training en evaluatie, en de trainingsdata, volledig open source, wat een solide startpunt biedt voor toekomstig onderzoek naar agentmodellen en agentische RL.
English
Recent advances in large language models (LLMs) and multi-agent systems have
demonstrated remarkable capabilities in complex problem-solving tasks such as
deep research, vibe coding, and mathematical reasoning. However, most existing
multi-agent systems are built upon manual prompt/workflow engineering with
sophisticated agent frameworks, making them computationally inefficient, less
capable, and can not benefit from data-centric learning. In this work, we
introduce Chain-of-Agents (CoA), a novel paradigm of LLM reasoning that enables
native end-to-end complex problem-solving in the same way as a multi-agent
system (i.e., multi-turn problem solving with multiple tools and multiple
agents) within one model. In chain-of-agents problem-solving, the model
dynamically activates different tool agents and role-playing agents to simulate
multi-agent collaboration in an end-to-end fashion. To elicit end-to-end
chain-of-agents problem-solving abilities in LLMs, we introduce a multi-agent
distillation framework to distill state-of-the-art multi-agent systems into
chain-of-agents trajectories for agentic supervised fine-tuning. We then use
agentic reinforcement learning on verifiable agentic tasks to further improve
the models' capabilities on chain-of-agents problem solving. We call the
resulting models Agent Foundation Models (AFMs). Our empirical studies
demonstrate that AFM establishes new state-of-the-art performance across
diverse benchmarks in both web agent and code agent settings. We make the
entire research, including the model weights, code for training and evaluation,
and the training data, fully open-sourced, which offers a solid starting point
for future research on agent models and agentic RL.