Chain-of-Agents : Modèles de fondation d'agents de bout en bout via la distillation multi-agents et l'apprentissage par renforcement agentique
Chain-of-Agents: End-to-End Agent Foundation Models via Multi-Agent Distillation and Agentic RL
August 6, 2025
papers.authors: Weizhen Li, Jianbo Lin, Zhuosong Jiang, Jingyi Cao, Xinpeng Liu, Jiayu Zhang, Zhenqiang Huang, Qianben Chen, Weichen Sun, Qiexiang Wang, Hongxuan Lu, Tianrui Qin, Chenghao Zhu, Yi Yao, Shuying Fan, Xiaowan Li, Tiannan Wang, Pai Liu, King Zhu, He Zhu, Dingfeng Shi, Piaohong Wang, Yeyi Guan, Xiangru Tang, Minghao Liu, Yuchen Eleanor Jiang, Jian Yang, Jiaheng Liu, Ge Zhang, Wangchunshu Zhou
cs.AI
papers.abstract
Les récentes avancées dans les modèles de langage de grande taille (LLMs) et les systèmes multi-agents ont démontré des capacités remarquables dans des tâches complexes de résolution de problèmes, telles que la recherche approfondie, le codage intuitif et le raisonnement mathématique. Cependant, la plupart des systèmes multi-agents existants sont construits sur une ingénierie manuelle de prompts et de workflows avec des cadres d'agents sophistiqués, ce qui les rend inefficaces sur le plan computationnel, moins performants et incapables de bénéficier d'un apprentissage centré sur les données. Dans ce travail, nous introduisons Chain-of-Agents (CoA), un nouveau paradigme de raisonnement pour les LLMs qui permet une résolution de problèmes complexes native de bout en bout, de la même manière qu'un système multi-agent (c'est-à-dire une résolution de problèmes en plusieurs étapes avec plusieurs outils et plusieurs agents) au sein d'un seul modèle. Dans la résolution de problèmes en chaîne d'agents, le modèle active dynamiquement différents agents-outils et agents de jeu de rôle pour simuler une collaboration multi-agent de manière end-to-end. Pour susciter les capacités de résolution de problèmes en chaîne d'agents de bout en bout dans les LLMs, nous introduisons un cadre de distillation multi-agent pour distiller les systèmes multi-agents de pointe en trajectoires de chaîne d'agents pour un ajustement fin supervisé agentique. Nous utilisons ensuite un apprentissage par renforcement agentique sur des tâches agentiques vérifiables pour améliorer davantage les capacités des modèles en matière de résolution de problèmes en chaîne d'agents. Nous appelons les modèles résultants Agent Foundation Models (AFMs). Nos études empiriques démontrent que l'AFM établit de nouvelles performances de pointe sur divers benchmarks, tant dans des contextes d'agents web que d'agents de code. Nous rendons l'intégralité de la recherche, y compris les poids des modèles, le code pour l'entraînement et l'évaluation, ainsi que les données d'entraînement, entièrement open-source, offrant ainsi un point de départ solide pour les recherches futures sur les modèles d'agents et l'apprentissage par renforcement agentique.
English
Recent advances in large language models (LLMs) and multi-agent systems have
demonstrated remarkable capabilities in complex problem-solving tasks such as
deep research, vibe coding, and mathematical reasoning. However, most existing
multi-agent systems are built upon manual prompt/workflow engineering with
sophisticated agent frameworks, making them computationally inefficient, less
capable, and can not benefit from data-centric learning. In this work, we
introduce Chain-of-Agents (CoA), a novel paradigm of LLM reasoning that enables
native end-to-end complex problem-solving in the same way as a multi-agent
system (i.e., multi-turn problem solving with multiple tools and multiple
agents) within one model. In chain-of-agents problem-solving, the model
dynamically activates different tool agents and role-playing agents to simulate
multi-agent collaboration in an end-to-end fashion. To elicit end-to-end
chain-of-agents problem-solving abilities in LLMs, we introduce a multi-agent
distillation framework to distill state-of-the-art multi-agent systems into
chain-of-agents trajectories for agentic supervised fine-tuning. We then use
agentic reinforcement learning on verifiable agentic tasks to further improve
the models' capabilities on chain-of-agents problem solving. We call the
resulting models Agent Foundation Models (AFMs). Our empirical studies
demonstrate that AFM establishes new state-of-the-art performance across
diverse benchmarks in both web agent and code agent settings. We make the
entire research, including the model weights, code for training and evaluation,
and the training data, fully open-sourced, which offers a solid starting point
for future research on agent models and agentic RL.