ChatPaper.aiChatPaper

Chain-of-Agents: End-to-End Agent Foundation Models durch Multi-Agent-Distillation und agentisches Reinforcement Learning

Chain-of-Agents: End-to-End Agent Foundation Models via Multi-Agent Distillation and Agentic RL

August 6, 2025
papers.authors: Weizhen Li, Jianbo Lin, Zhuosong Jiang, Jingyi Cao, Xinpeng Liu, Jiayu Zhang, Zhenqiang Huang, Qianben Chen, Weichen Sun, Qiexiang Wang, Hongxuan Lu, Tianrui Qin, Chenghao Zhu, Yi Yao, Shuying Fan, Xiaowan Li, Tiannan Wang, Pai Liu, King Zhu, He Zhu, Dingfeng Shi, Piaohong Wang, Yeyi Guan, Xiangru Tang, Minghao Liu, Yuchen Eleanor Jiang, Jian Yang, Jiaheng Liu, Ge Zhang, Wangchunshu Zhou
cs.AI

papers.abstract

Jüngste Fortschritte bei großen Sprachmodellen (LLMs) und Multi-Agenten-Systemen haben bemerkenswerte Fähigkeiten bei komplexen Problemlösungsaufgaben wie tiefgehender Forschung, Vibe-Coding und mathematischem Denken gezeigt. Die meisten bestehenden Multi-Agenten-Systeme basieren jedoch auf manueller Prompt-/Workflow-Entwicklung mit ausgeklügelten Agenten-Frameworks, was sie rechenineffizient, weniger leistungsfähig und unfähig macht, von datenzentriertem Lernen zu profitieren. In dieser Arbeit stellen wir Chain-of-Agents (CoA) vor, ein neuartiges Paradigma des LLM-Reasonings, das native End-to-End-Komplexproblemlösungen auf dieselbe Weise wie ein Multi-Agenten-System (d.h. mehrstufige Problemlösung mit mehreren Tools und mehreren Agenten) innerhalb eines Modells ermöglicht. Bei der Chain-of-Agents-Problemlösung aktiviert das Modell dynamisch verschiedene Tool-Agenten und Rollenspiel-Agenten, um die Zusammenarbeit mehrerer Agenten in einer End-to-End-Weise zu simulieren. Um End-to-End-Chain-of-Agents-Problemlösungsfähigkeiten in LLMs zu fördern, führen wir ein Multi-Agenten-Distillationsframework ein, um state-of-the-art Multi-Agenten-Systeme in Chain-of-Agents-Trajektorien für agentisches supervidiertes Fine-Tuning zu destillieren. Anschließend verwenden wir agentisches Reinforcement Learning bei überprüfbaren agentischen Aufgaben, um die Fähigkeiten der Modelle bei der Chain-of-Agents-Problemlösung weiter zu verbessern. Wir nennen die resultierenden Modelle Agent Foundation Models (AFMs). Unsere empirischen Studien zeigen, dass AFM neue state-of-the-art-Leistungen in verschiedenen Benchmarks sowohl im Web-Agenten- als auch im Code-Agenten-Setting erzielt. Wir stellen die gesamte Forschung, einschließlich der Modellgewichte, des Codes für Training und Evaluation sowie der Trainingsdaten, vollständig als Open Source zur Verfügung, was einen soliden Ausgangspunkt für zukünftige Forschungen zu Agentenmodellen und agentischem RL bietet.
English
Recent advances in large language models (LLMs) and multi-agent systems have demonstrated remarkable capabilities in complex problem-solving tasks such as deep research, vibe coding, and mathematical reasoning. However, most existing multi-agent systems are built upon manual prompt/workflow engineering with sophisticated agent frameworks, making them computationally inefficient, less capable, and can not benefit from data-centric learning. In this work, we introduce Chain-of-Agents (CoA), a novel paradigm of LLM reasoning that enables native end-to-end complex problem-solving in the same way as a multi-agent system (i.e., multi-turn problem solving with multiple tools and multiple agents) within one model. In chain-of-agents problem-solving, the model dynamically activates different tool agents and role-playing agents to simulate multi-agent collaboration in an end-to-end fashion. To elicit end-to-end chain-of-agents problem-solving abilities in LLMs, we introduce a multi-agent distillation framework to distill state-of-the-art multi-agent systems into chain-of-agents trajectories for agentic supervised fine-tuning. We then use agentic reinforcement learning on verifiable agentic tasks to further improve the models' capabilities on chain-of-agents problem solving. We call the resulting models Agent Foundation Models (AFMs). Our empirical studies demonstrate that AFM establishes new state-of-the-art performance across diverse benchmarks in both web agent and code agent settings. We make the entire research, including the model weights, code for training and evaluation, and the training data, fully open-sourced, which offers a solid starting point for future research on agent models and agentic RL.
PDF595August 20, 2025