AgentArk: Het distilleren van multi-agent intelligentie in een enkele LLM-agent

Samenvatting

Hoewel multi-agentsystemen met grote taalmodellen (LLM's) superieure redeneerprestaties bereiken via iteratief debat, wordt praktische implementatie beperkt door hun hoge computationele kosten en foutpropagatie. Dit artikel stelt AgentArk voor, een nieuw raamwerk om de dynamiek van meerdere agenten te distilleren in de gewichten van een enkel model, waardoor expliciete interacties tijdens het testen effectief worden omgezet in impliciete modelcapaciteiten. Hierdoor wordt een enkele agent uitgerust met de intelligentie van multi-agentsystemen, terwijl deze computationeel efficiënt blijft. Specifiek onderzoeken we drie hiërarchische distillatiestrategieën across verschillende modellen, taken, schaalvergroting en scenario's: *reasoning-enhanced fine-tuning*; trajectgebaseerde augmentatie; en procesbewuste distillatie. Door de rekencapaciteit van inferentie naar training te verplaatsen, behouden de gedistilleerde modellen de efficiëntie van één agent en vertonen ze tegelijkertijd de sterke redeneer- en zelfcorrectieprestaties van meerdere agenten. Ze tonen verder verbeterde robuustheid en generalisatie aan bij diverse redeneertaken. Wij hopen dat dit werk toekomstig onderzoek naar efficiënte en robuuste multi-agentontwikkeling kan verduidelijken. Onze code staat op https://github.com/AIFrontierLab/AgentArk.

English

While large language model (LLM) multi-agent systems achieve superior reasoning performance through iterative debate, practical deployment is limited by their high computational cost and error propagation. This paper proposes AgentArk, a novel framework to distill multi-agent dynamics into the weights of a single model, effectively transforming explicit test-time interactions into implicit model capabilities. This equips a single agent with the intelligence of multi-agent systems while remaining computationally efficient. Specifically, we investigate three hierarchical distillation strategies across various models, tasks, scaling, and scenarios: reasoning-enhanced fine-tuning; trajectory-based augmentation; and process-aware distillation. By shifting the burden of computation from inference to training, the distilled models preserve the efficiency of one agent while exhibiting strong reasoning and self-correction performance of multiple agents. They further demonstrate enhanced robustness and generalization across diverse reasoning tasks. We hope this work can shed light on future research on efficient and robust multi-agent development. Our code is at https://github.com/AIFrontierLab/AgentArk.

AgentArk: Het distilleren van multi-agent intelligentie in een enkele LLM-agent

AgentArk: Distilling Multi-Agent Intelligence into a Single LLM Agent

Samenvatting

Support