Chain-of-Agents: Modelli Fondamentali di Agenti End-to-End tramite Distillazione Multi-Agente e RL Agente-centrico
Chain-of-Agents: End-to-End Agent Foundation Models via Multi-Agent Distillation and Agentic RL
August 6, 2025
Autori: Weizhen Li, Jianbo Lin, Zhuosong Jiang, Jingyi Cao, Xinpeng Liu, Jiayu Zhang, Zhenqiang Huang, Qianben Chen, Weichen Sun, Qiexiang Wang, Hongxuan Lu, Tianrui Qin, Chenghao Zhu, Yi Yao, Shuying Fan, Xiaowan Li, Tiannan Wang, Pai Liu, King Zhu, He Zhu, Dingfeng Shi, Piaohong Wang, Yeyi Guan, Xiangru Tang, Minghao Liu, Yuchen Eleanor Jiang, Jian Yang, Jiaheng Liu, Ge Zhang, Wangchunshu Zhou
cs.AI
Abstract
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) e nei sistemi multi-agente hanno dimostrato capacità straordinarie in compiti complessi di problem solving come la ricerca approfondita, il "vibe coding" e il ragionamento matematico. Tuttavia, la maggior parte dei sistemi multi-agente esistenti si basa su un'ingegnerizzazione manuale di prompt/flussi di lavoro con framework di agenti sofisticati, rendendoli computazionalmente inefficienti, meno capaci e incapaci di trarre vantaggio dall'apprendimento centrato sui dati. In questo lavoro, introduciamo Chain-of-Agents (CoA), un nuovo paradigma di ragionamento LLM che abilita il problem solving complesso end-to-end nativo nello stesso modo di un sistema multi-agente (cioè, risoluzione di problemi multi-turn con più strumenti e più agenti) all'interno di un unico modello. Nella risoluzione di problemi con chain-of-agents, il modello attiva dinamicamente diversi agenti strumentali e agenti di ruolo per simulare la collaborazione multi-agente in modo end-to-end. Per elicitare le capacità di problem solving end-to-end con chain-of-agents negli LLM, introduciamo un framework di distillazione multi-agente per distillare sistemi multi-agente all'avanguardia in traiettorie chain-of-agents per il fine-tuning supervisionato agentico. Utilizziamo poi l'apprendimento per rinforzo agentico su compiti agentici verificabili per migliorare ulteriormente le capacità dei modelli nella risoluzione di problemi con chain-of-agents. Chiamiamo i modelli risultanti Agent Foundation Models (AFM). I nostri studi empirici dimostrano che AFM stabilisce nuove prestazioni all'avanguardia su diversi benchmark sia in contesti di agenti web che di agenti di codice. Rendiamo l'intera ricerca, inclusi i pesi del modello, il codice per l'addestramento e la valutazione, e i dati di addestramento, completamente open-source, offrendo un solido punto di partenza per future ricerche sui modelli agentici e sull'apprendimento per rinforzo agentico.
English
Recent advances in large language models (LLMs) and multi-agent systems have
demonstrated remarkable capabilities in complex problem-solving tasks such as
deep research, vibe coding, and mathematical reasoning. However, most existing
multi-agent systems are built upon manual prompt/workflow engineering with
sophisticated agent frameworks, making them computationally inefficient, less
capable, and can not benefit from data-centric learning. In this work, we
introduce Chain-of-Agents (CoA), a novel paradigm of LLM reasoning that enables
native end-to-end complex problem-solving in the same way as a multi-agent
system (i.e., multi-turn problem solving with multiple tools and multiple
agents) within one model. In chain-of-agents problem-solving, the model
dynamically activates different tool agents and role-playing agents to simulate
multi-agent collaboration in an end-to-end fashion. To elicit end-to-end
chain-of-agents problem-solving abilities in LLMs, we introduce a multi-agent
distillation framework to distill state-of-the-art multi-agent systems into
chain-of-agents trajectories for agentic supervised fine-tuning. We then use
agentic reinforcement learning on verifiable agentic tasks to further improve
the models' capabilities on chain-of-agents problem solving. We call the
resulting models Agent Foundation Models (AFMs). Our empirical studies
demonstrate that AFM establishes new state-of-the-art performance across
diverse benchmarks in both web agent and code agent settings. We make the
entire research, including the model weights, code for training and evaluation,
and the training data, fully open-sourced, which offers a solid starting point
for future research on agent models and agentic RL.