ChatPaper.aiChatPaper

FlowReasoner: Rafforzamento degli Agenti Meta a Livello di Query

FlowReasoner: Reinforcing Query-Level Meta-Agents

April 21, 2025
Autori: Hongcheng Gao, Yue Liu, Yufei He, Longxu Dou, Chao Du, Zhijie Deng, Bryan Hooi, Min Lin, Tianyu Pang
cs.AI

Abstract

Questo articolo propone un meta-agente a livello di query denominato FlowReasoner per automatizzare la progettazione di sistemi multi-agente a livello di query, ovvero un sistema per ogni query dell'utente. La nostra idea centrale è incentivare un meta-agente basato sul ragionamento attraverso feedback esterni di esecuzione. Nello specifico, distillando DeepSeek R1, dotiamo inizialmente FlowReasoner della capacità di ragionamento di base riguardo alla generazione di sistemi multi-agente. Successivamente, lo potenziamo ulteriormente attraverso l'apprendimento per rinforzo (RL) con feedback esterni di esecuzione. Una ricompensa multi-scopo è progettata per guidare l'addestramento RL considerando aspetti di prestazione, complessità ed efficienza. In questo modo, FlowReasoner è in grado di generare un sistema multi-agente personalizzato per ogni query dell'utente attraverso un ragionamento deliberativo. Gli esperimenti condotti su benchmark di codice ingegneristico e competitivo dimostrano la superiorità di FlowReasoner. In particolare, supera o1-mini con un'accuratezza del 10,52% su tre benchmark. Il codice è disponibile all'indirizzo https://github.com/sail-sg/FlowReasoner.
English
This paper proposes a query-level meta-agent named FlowReasoner to automate the design of query-level multi-agent systems, i.e., one system per user query. Our core idea is to incentivize a reasoning-based meta-agent via external execution feedback. Concretely, by distilling DeepSeek R1, we first endow the basic reasoning ability regarding the generation of multi-agent systems to FlowReasoner. Then, we further enhance it via reinforcement learning (RL) with external execution feedback. A multi-purpose reward is designed to guide the RL training from aspects of performance, complexity, and efficiency. In this manner, FlowReasoner is enabled to generate a personalized multi-agent system for each user query via deliberative reasoning. Experiments on both engineering and competition code benchmarks demonstrate the superiority of FlowReasoner. Remarkably, it surpasses o1-mini by 10.52% accuracy across three benchmarks. The code is available at https://github.com/sail-sg/FlowReasoner.

Summary

AI-Generated Summary

PDF462April 22, 2025