AgentArk: Destilando la Inteligencia Multiagente en un Único Agente de Gran Modelo de Lenguaje

Resumen

Si bien los sistemas multiagente basados en modelos de lenguaje grande (LLM) logran un rendimiento de razonamiento superior mediante el debate iterativo, su implementación práctica se ve limitada por su alto coste computacional y la propagación de errores. Este artículo propone AgentArk, un marco novedoso para destilar la dinámica multiagente en los pesos de un modelo único, transformando efectivamente las interacciones explícitas en tiempo de prueba en capacidades implícitas del modelo. Esto dota a un solo agente con la inteligencia de los sistemas multiagente manteniendo la eficiencia computacional. Específicamente, investigamos tres estrategias de destilación jerárquica en diversos modelos, tareas, escalas y escenarios: ajuste fino potenciado por razonamiento; aumento basado en trayectorias; y destilación consciente del proceso. Al trasladar la carga computacional de la inferencia al entrenamiento, los modelos destilados preservan la eficiencia de un agente mientras exhiben un fuerte rendimiento de razonamiento y autocorrección de múltiples agentes. Además, demuestran una mayor robustez y generalización en diversas tareas de razonamiento. Esperamos que este trabajo pueda iluminar futuras investigaciones sobre el desarrollo multiagente eficiente y robusto. Nuestro código está disponible en https://github.com/AIFrontierLab/AgentArk.

English

While large language model (LLM) multi-agent systems achieve superior reasoning performance through iterative debate, practical deployment is limited by their high computational cost and error propagation. This paper proposes AgentArk, a novel framework to distill multi-agent dynamics into the weights of a single model, effectively transforming explicit test-time interactions into implicit model capabilities. This equips a single agent with the intelligence of multi-agent systems while remaining computationally efficient. Specifically, we investigate three hierarchical distillation strategies across various models, tasks, scaling, and scenarios: reasoning-enhanced fine-tuning; trajectory-based augmentation; and process-aware distillation. By shifting the burden of computation from inference to training, the distilled models preserve the efficiency of one agent while exhibiting strong reasoning and self-correction performance of multiple agents. They further demonstrate enhanced robustness and generalization across diverse reasoning tasks. We hope this work can shed light on future research on efficient and robust multi-agent development. Our code is at https://github.com/AIFrontierLab/AgentArk.

AgentArk: Destilando la Inteligencia Multiagente en un Único Agente de Gran Modelo de Lenguaje

AgentArk: Distilling Multi-Agent Intelligence into a Single LLM Agent

Resumen

Support