FlowReasoner : Renforcement des méta-agents au niveau des requêtes
FlowReasoner: Reinforcing Query-Level Meta-Agents
April 21, 2025
Auteurs: Hongcheng Gao, Yue Liu, Yufei He, Longxu Dou, Chao Du, Zhijie Deng, Bryan Hooi, Min Lin, Tianyu Pang
cs.AI
Résumé
Cet article propose un méta-agent au niveau des requêtes, nommé FlowReasoner, pour automatiser la conception de systèmes multi-agents au niveau des requêtes, c'est-à-dire un système par requête utilisateur. Notre idée centrale est d'inciter un méta-agent basé sur le raisonnement via des retours d'exécution externes. Concrètement, en distillant DeepSeek R1, nous dotons d'abord FlowReasoner de la capacité de raisonnement de base concernant la génération de systèmes multi-agents. Ensuite, nous l'améliorons davantage via l'apprentissage par renforcement (RL) avec des retours d'exécution externes. Une récompense polyvalente est conçue pour guider l'entraînement RL en termes de performance, complexité et efficacité. De cette manière, FlowReasoner est capable de générer un système multi-agent personnalisé pour chaque requête utilisateur via un raisonnement délibératif. Les expériences sur des benchmarks de code d'ingénierie et de compétition démontrent la supériorité de FlowReasoner. Notamment, il surpasse o1-mini de 10,52 % en précision sur trois benchmarks. Le code est disponible à l'adresse https://github.com/sail-sg/FlowReasoner.
English
This paper proposes a query-level meta-agent named FlowReasoner to automate
the design of query-level multi-agent systems, i.e., one system per user query.
Our core idea is to incentivize a reasoning-based meta-agent via external
execution feedback. Concretely, by distilling DeepSeek R1, we first endow the
basic reasoning ability regarding the generation of multi-agent systems to
FlowReasoner. Then, we further enhance it via reinforcement learning (RL) with
external execution feedback. A multi-purpose reward is designed to guide the RL
training from aspects of performance, complexity, and efficiency. In this
manner, FlowReasoner is enabled to generate a personalized multi-agent system
for each user query via deliberative reasoning. Experiments on both engineering
and competition code benchmarks demonstrate the superiority of FlowReasoner.
Remarkably, it surpasses o1-mini by 10.52% accuracy across three benchmarks.
The code is available at https://github.com/sail-sg/FlowReasoner.Summary
AI-Generated Summary