FlowReasoner: Reforçando Meta-Agentes em Nível de Consulta
FlowReasoner: Reinforcing Query-Level Meta-Agents
April 21, 2025
Autores: Hongcheng Gao, Yue Liu, Yufei He, Longxu Dou, Chao Du, Zhijie Deng, Bryan Hooi, Min Lin, Tianyu Pang
cs.AI
Resumo
Este artigo propõe um meta-agente em nível de consulta chamado FlowReasoner para automatizar o design de sistemas multiagente em nível de consulta, ou seja, um sistema por consulta de usuário. Nossa ideia central é incentivar um meta-agente baseado em raciocínio por meio de feedback de execução externo. Concretamente, ao destilar o DeepSeek R1, primeiro dotamos o FlowReasoner com a capacidade básica de raciocínio em relação à geração de sistemas multiagente. Em seguida, aprimoramos ainda mais essa capacidade por meio de aprendizado por reforço (RL) com feedback de execução externo. Uma recompensa multifuncional foi projetada para orientar o treinamento de RL em termos de desempenho, complexidade e eficiência. Dessa forma, o FlowReasoner é capaz de gerar um sistema multiagente personalizado para cada consulta de usuário por meio de raciocínio deliberativo. Experimentos em benchmarks de código de engenharia e competição demonstram a superioridade do FlowReasoner. Notavelmente, ele supera o o1-mini em 10,52% de precisão em três benchmarks. O código está disponível em https://github.com/sail-sg/FlowReasoner.
English
This paper proposes a query-level meta-agent named FlowReasoner to automate
the design of query-level multi-agent systems, i.e., one system per user query.
Our core idea is to incentivize a reasoning-based meta-agent via external
execution feedback. Concretely, by distilling DeepSeek R1, we first endow the
basic reasoning ability regarding the generation of multi-agent systems to
FlowReasoner. Then, we further enhance it via reinforcement learning (RL) with
external execution feedback. A multi-purpose reward is designed to guide the RL
training from aspects of performance, complexity, and efficiency. In this
manner, FlowReasoner is enabled to generate a personalized multi-agent system
for each user query via deliberative reasoning. Experiments on both engineering
and competition code benchmarks demonstrate the superiority of FlowReasoner.
Remarkably, it surpasses o1-mini by 10.52% accuracy across three benchmarks.
The code is available at https://github.com/sail-sg/FlowReasoner.Summary
AI-Generated Summary