Chain-of-Agents: Modelos de Fundación de Agentes de Extremo a Extremo mediante Distilación Multi-Agente y RL Agéntico
Chain-of-Agents: End-to-End Agent Foundation Models via Multi-Agent Distillation and Agentic RL
August 6, 2025
Autores: Weizhen Li, Jianbo Lin, Zhuosong Jiang, Jingyi Cao, Xinpeng Liu, Jiayu Zhang, Zhenqiang Huang, Qianben Chen, Weichen Sun, Qiexiang Wang, Hongxuan Lu, Tianrui Qin, Chenghao Zhu, Yi Yao, Shuying Fan, Xiaowan Li, Tiannan Wang, Pai Liu, King Zhu, He Zhu, Dingfeng Shi, Piaohong Wang, Yeyi Guan, Xiangru Tang, Minghao Liu, Yuchen Eleanor Jiang, Jian Yang, Jiaheng Liu, Ge Zhang, Wangchunshu Zhou
cs.AI
Resumen
Los recientes avances en los modelos de lenguaje de gran escala (LLMs) y los sistemas multiagente han demostrado capacidades notables en tareas complejas de resolución de problemas, como la investigación profunda, la codificación intuitiva y el razonamiento matemático. Sin embargo, la mayoría de los sistemas multiagente existentes se basan en la ingeniería manual de prompts/flujos de trabajo con marcos de agentes sofisticados, lo que los hace computacionalmente ineficientes, menos capaces y no pueden beneficiarse del aprendizaje centrado en datos. En este trabajo, presentamos Chain-of-Agents (CoA), un nuevo paradigma de razonamiento en LLMs que permite la resolución nativa de problemas complejos de extremo a extremo de la misma manera que un sistema multiagente (es decir, resolución de problemas en múltiples turnos con múltiples herramientas y múltiples agentes) dentro de un solo modelo. En la resolución de problemas de cadena de agentes, el modelo activa dinámicamente diferentes agentes de herramientas y agentes de interpretación de roles para simular la colaboración multiagente de manera integral. Para fomentar las habilidades de resolución de problemas de cadena de agentes de extremo a extremo en los LLMs, introducimos un marco de destilación multiagente para destilar sistemas multiagente de última generación en trayectorias de cadena de agentes para el ajuste fino supervisado de tipo agente. Luego, utilizamos el aprendizaje por refuerzo de tipo agente en tareas verificables para mejorar aún más las capacidades de los modelos en la resolución de problemas de cadena de agentes. Llamamos a los modelos resultantes Modelos Fundacionales de Agentes (AFMs). Nuestros estudios empíricos demuestran que AFM establece un nuevo estado del arte en diversos benchmarks tanto en configuraciones de agentes web como de código. Hacemos que toda la investigación, incluidos los pesos del modelo, el código para entrenamiento y evaluación, y los datos de entrenamiento, sean completamente de código abierto, lo que ofrece un punto de partida sólido para futuras investigaciones sobre modelos de agentes y aprendizaje por refuerzo de tipo agente.
English
Recent advances in large language models (LLMs) and multi-agent systems have
demonstrated remarkable capabilities in complex problem-solving tasks such as
deep research, vibe coding, and mathematical reasoning. However, most existing
multi-agent systems are built upon manual prompt/workflow engineering with
sophisticated agent frameworks, making them computationally inefficient, less
capable, and can not benefit from data-centric learning. In this work, we
introduce Chain-of-Agents (CoA), a novel paradigm of LLM reasoning that enables
native end-to-end complex problem-solving in the same way as a multi-agent
system (i.e., multi-turn problem solving with multiple tools and multiple
agents) within one model. In chain-of-agents problem-solving, the model
dynamically activates different tool agents and role-playing agents to simulate
multi-agent collaboration in an end-to-end fashion. To elicit end-to-end
chain-of-agents problem-solving abilities in LLMs, we introduce a multi-agent
distillation framework to distill state-of-the-art multi-agent systems into
chain-of-agents trajectories for agentic supervised fine-tuning. We then use
agentic reinforcement learning on verifiable agentic tasks to further improve
the models' capabilities on chain-of-agents problem solving. We call the
resulting models Agent Foundation Models (AFMs). Our empirical studies
demonstrate that AFM establishes new state-of-the-art performance across
diverse benchmarks in both web agent and code agent settings. We make the
entire research, including the model weights, code for training and evaluation,
and the training data, fully open-sourced, which offers a solid starting point
for future research on agent models and agentic RL.