FlowReasoner: Reforzando Meta-Agentes a Nivel de Consulta
FlowReasoner: Reinforcing Query-Level Meta-Agents
April 21, 2025
Autores: Hongcheng Gao, Yue Liu, Yufei He, Longxu Dou, Chao Du, Zhijie Deng, Bryan Hooi, Min Lin, Tianyu Pang
cs.AI
Resumen
Este artículo propone un meta-agente a nivel de consulta llamado FlowReasoner para automatizar el diseño de sistemas multi-agente a nivel de consulta, es decir, un sistema por cada consulta de usuario. Nuestra idea central es incentivar a un meta-agente basado en razonamiento mediante retroalimentación de ejecución externa. Concretamente, al destilar DeepSeek R1, primero dotamos a FlowReasoner de la capacidad básica de razonamiento respecto a la generación de sistemas multi-agente. Luego, lo mejoramos aún más mediante aprendizaje por refuerzo (RL) con retroalimentación de ejecución externa. Se diseña una recompensa multipropósito para guiar el entrenamiento de RL desde aspectos de rendimiento, complejidad y eficiencia. De esta manera, FlowReasoner puede generar un sistema multi-agente personalizado para cada consulta de usuario mediante un razonamiento deliberativo. Los experimentos en benchmarks de código tanto de ingeniería como de competencia demuestran la superioridad de FlowReasoner. Notablemente, supera a o1-mini en un 10.52% de precisión en tres benchmarks. El código está disponible en https://github.com/sail-sg/FlowReasoner.
English
This paper proposes a query-level meta-agent named FlowReasoner to automate
the design of query-level multi-agent systems, i.e., one system per user query.
Our core idea is to incentivize a reasoning-based meta-agent via external
execution feedback. Concretely, by distilling DeepSeek R1, we first endow the
basic reasoning ability regarding the generation of multi-agent systems to
FlowReasoner. Then, we further enhance it via reinforcement learning (RL) with
external execution feedback. A multi-purpose reward is designed to guide the RL
training from aspects of performance, complexity, and efficiency. In this
manner, FlowReasoner is enabled to generate a personalized multi-agent system
for each user query via deliberative reasoning. Experiments on both engineering
and competition code benchmarks demonstrate the superiority of FlowReasoner.
Remarkably, it surpasses o1-mini by 10.52% accuracy across three benchmarks.
The code is available at https://github.com/sail-sg/FlowReasoner.Summary
AI-Generated Summary