FlowReasoner: クエリレベルメタエージェントの強化
FlowReasoner: Reinforcing Query-Level Meta-Agents
April 21, 2025
著者: Hongcheng Gao, Yue Liu, Yufei He, Longxu Dou, Chao Du, Zhijie Deng, Bryan Hooi, Min Lin, Tianyu Pang
cs.AI
要旨
本論文では、クエリレベルメタエージェント「FlowReasoner」を提案し、ユーザークエリごとに1つのシステムを設計するクエリレベルのマルチエージェントシステムの自動化を実現します。核心となるアイデアは、外部実行フィードバックを通じて推論ベースのメタエージェントを動機付けることです。具体的には、DeepSeek R1を蒸留することで、まずFlowReasonerにマルチエージェントシステム生成に関する基本的な推論能力を付与します。その後、外部実行フィードバックを用いた強化学習(RL)を通じてさらに強化します。多目的報酬を設計し、性能、複雑さ、効率の観点からRLトレーニングを導きます。これにより、FlowReasonerは熟慮した推論を通じて各ユーザークエリに応じたパーソナライズされたマルチエージェントシステムを生成できるようになります。エンジニアリングおよび競技コードベンチマークでの実験により、FlowReasonerの優位性が実証されました。特に、3つのベンチマークにおいてo1-miniを10.52%の精度で上回りました。コードはhttps://github.com/sail-sg/FlowReasonerで公開されています。
English
This paper proposes a query-level meta-agent named FlowReasoner to automate
the design of query-level multi-agent systems, i.e., one system per user query.
Our core idea is to incentivize a reasoning-based meta-agent via external
execution feedback. Concretely, by distilling DeepSeek R1, we first endow the
basic reasoning ability regarding the generation of multi-agent systems to
FlowReasoner. Then, we further enhance it via reinforcement learning (RL) with
external execution feedback. A multi-purpose reward is designed to guide the RL
training from aspects of performance, complexity, and efficiency. In this
manner, FlowReasoner is enabled to generate a personalized multi-agent system
for each user query via deliberative reasoning. Experiments on both engineering
and competition code benchmarks demonstrate the superiority of FlowReasoner.
Remarkably, it surpasses o1-mini by 10.52% accuracy across three benchmarks.
The code is available at https://github.com/sail-sg/FlowReasoner.Summary
AI-Generated Summary