Chain-of-Agents: Modelos de Fundamento de Agentes de Ponta a Ponta via Distilação Multi-Agente e RL Agêntico
Chain-of-Agents: End-to-End Agent Foundation Models via Multi-Agent Distillation and Agentic RL
August 6, 2025
Autores: Weizhen Li, Jianbo Lin, Zhuosong Jiang, Jingyi Cao, Xinpeng Liu, Jiayu Zhang, Zhenqiang Huang, Qianben Chen, Weichen Sun, Qiexiang Wang, Hongxuan Lu, Tianrui Qin, Chenghao Zhu, Yi Yao, Shuying Fan, Xiaowan Li, Tiannan Wang, Pai Liu, King Zhu, He Zhu, Dingfeng Shi, Piaohong Wang, Yeyi Guan, Xiangru Tang, Minghao Liu, Yuchen Eleanor Jiang, Jian Yang, Jiaheng Liu, Ge Zhang, Wangchunshu Zhou
cs.AI
Resumo
Os recentes avanços em modelos de linguagem de grande escala (LLMs) e sistemas multiagentes demonstraram capacidades notáveis em tarefas complexas de resolução de problemas, como pesquisa aprofundada, codificação intuitiva e raciocínio matemático. No entanto, a maioria dos sistemas multiagentes existentes é construída com base em engenharia manual de prompts/fluxos de trabalho com estruturas de agentes sofisticadas, tornando-os computacionalmente ineficientes, menos capazes e incapazes de se beneficiar de aprendizado centrado em dados. Neste trabalho, introduzimos o Chain-of-Agents (CoA), um novo paradigma de raciocínio em LLMs que permite a resolução complexa de problemas de forma nativa e end-to-end, da mesma maneira que um sistema multiagente (ou seja, resolução de problemas em múltiplas etapas com múltiplas ferramentas e múltiplos agentes) dentro de um único modelo. Na resolução de problemas com chain-of-agents, o modelo ativa dinamicamente diferentes agentes de ferramentas e agentes de interpretação de papéis para simular a colaboração multiagente de forma end-to-end. Para eliciar habilidades de resolução de problemas end-to-end com chain-of-agents em LLMs, introduzimos um framework de destilação multiagente para destilar sistemas multiagentes state-of-the-art em trajetórias de chain-of-agents para ajuste supervisionado agentivo. Em seguida, usamos aprendizado por reforço agentivo em tarefas agentivas verificáveis para aprimorar ainda mais as capacidades dos modelos na resolução de problemas com chain-of-agents. Chamamos os modelos resultantes de Modelos de Fundação Agentivos (AFMs). Nossos estudos empíricos demonstram que o AFM estabelece um novo estado da arte em desempenho em diversos benchmarks, tanto em configurações de agentes web quanto de código. Disponibilizamos toda a pesquisa, incluindo os pesos do modelo, código para treinamento e avaliação, e os dados de treinamento, totalmente em código aberto, oferecendo um ponto de partida sólido para pesquisas futuras em modelos agentivos e RL agentivo.
English
Recent advances in large language models (LLMs) and multi-agent systems have
demonstrated remarkable capabilities in complex problem-solving tasks such as
deep research, vibe coding, and mathematical reasoning. However, most existing
multi-agent systems are built upon manual prompt/workflow engineering with
sophisticated agent frameworks, making them computationally inefficient, less
capable, and can not benefit from data-centric learning. In this work, we
introduce Chain-of-Agents (CoA), a novel paradigm of LLM reasoning that enables
native end-to-end complex problem-solving in the same way as a multi-agent
system (i.e., multi-turn problem solving with multiple tools and multiple
agents) within one model. In chain-of-agents problem-solving, the model
dynamically activates different tool agents and role-playing agents to simulate
multi-agent collaboration in an end-to-end fashion. To elicit end-to-end
chain-of-agents problem-solving abilities in LLMs, we introduce a multi-agent
distillation framework to distill state-of-the-art multi-agent systems into
chain-of-agents trajectories for agentic supervised fine-tuning. We then use
agentic reinforcement learning on verifiable agentic tasks to further improve
the models' capabilities on chain-of-agents problem solving. We call the
resulting models Agent Foundation Models (AFMs). Our empirical studies
demonstrate that AFM establishes new state-of-the-art performance across
diverse benchmarks in both web agent and code agent settings. We make the
entire research, including the model weights, code for training and evaluation,
and the training data, fully open-sourced, which offers a solid starting point
for future research on agent models and agentic RL.