FlowReasoner: Verstärkung von Meta-Agenten auf Abfrageebene
FlowReasoner: Reinforcing Query-Level Meta-Agents
April 21, 2025
Autoren: Hongcheng Gao, Yue Liu, Yufei He, Longxu Dou, Chao Du, Zhijie Deng, Bryan Hooi, Min Lin, Tianyu Pang
cs.AI
Zusammenfassung
Dieses Papier stellt einen Meta-Agenten auf Abfrageebene namens FlowReasoner vor, der die Gestaltung von Multi-Agenten-Systemen auf Abfrageebene automatisiert, d.h. ein System pro Benutzeranfrage. Unser Kernkonzept besteht darin, einen auf logischem Denken basierenden Meta-Agenten durch externes Ausführungsfeedback zu motivieren. Konkret statten wir FlowReasoner zunächst durch die Destillation von DeepSeek R1 mit der grundlegenden Fähigkeit aus, Multi-Agenten-Systeme zu generieren. Anschließend verbessern wir ihn weiter durch Reinforcement Learning (RL) mit externem Ausführungsfeedback. Ein vielseitiger Belohnungsmechanismus wurde entwickelt, um das RL-Training in Bezug auf Leistung, Komplexität und Effizienz zu steuern. Auf diese Weise ist FlowReasoner in der Lage, ein personalisiertes Multi-Agenten-System für jede Benutzeranfrage durch gezieltes logisches Denken zu generieren. Experimente sowohl auf technischen als auch auf Wettbewerbs-Code-Benchmarks demonstrieren die Überlegenheit von FlowReasoner. Bemerkenswerterweise übertrifft es o1-mini um 10,52 % Genauigkeit über drei Benchmarks hinweg. Der Code ist verfügbar unter https://github.com/sail-sg/FlowReasoner.
English
This paper proposes a query-level meta-agent named FlowReasoner to automate
the design of query-level multi-agent systems, i.e., one system per user query.
Our core idea is to incentivize a reasoning-based meta-agent via external
execution feedback. Concretely, by distilling DeepSeek R1, we first endow the
basic reasoning ability regarding the generation of multi-agent systems to
FlowReasoner. Then, we further enhance it via reinforcement learning (RL) with
external execution feedback. A multi-purpose reward is designed to guide the RL
training from aspects of performance, complexity, and efficiency. In this
manner, FlowReasoner is enabled to generate a personalized multi-agent system
for each user query via deliberative reasoning. Experiments on both engineering
and competition code benchmarks demonstrate the superiority of FlowReasoner.
Remarkably, it surpasses o1-mini by 10.52% accuracy across three benchmarks.
The code is available at https://github.com/sail-sg/FlowReasoner.Summary
AI-Generated Summary