ChatPaper.aiChatPaper

FlowReasoner: Усиление мета-агентов на уровне запросов

FlowReasoner: Reinforcing Query-Level Meta-Agents

April 21, 2025
Авторы: Hongcheng Gao, Yue Liu, Yufei He, Longxu Dou, Chao Du, Zhijie Deng, Bryan Hooi, Min Lin, Tianyu Pang
cs.AI

Аннотация

В данной статье представлен мета-агент уровня запросов под названием FlowReasoner, предназначенный для автоматизации проектирования мультиагентных систем уровня запросов, то есть одной системы на каждый пользовательский запрос. Основная идея заключается в стимулировании мета-агента, основанного на рассуждениях, с помощью внешней обратной связи по выполнению. Конкретно, сначала мы наделяем FlowReasoner базовой способностью к рассуждениям относительно генерации мультиагентных систем, используя знания, извлеченные из DeepSeek R1. Затем мы дополнительно улучшаем его с помощью обучения с подкреплением (RL), используя внешнюю обратную связь по выполнению. Многоцелевая функция вознаграждения разработана для руководства обучением RL с учетом производительности, сложности и эффективности. Таким образом, FlowReasoner получает возможность генерировать персонализированную мультиагентную систему для каждого пользовательского запроса посредством обдуманных рассуждений. Эксперименты на инженерных и соревновательных бенчмарках кода демонстрируют превосходство FlowReasoner. Примечательно, что он превосходит o1-mini на 10,52% по точности на трех бенчмарках. Код доступен по адресу https://github.com/sail-sg/FlowReasoner.
English
This paper proposes a query-level meta-agent named FlowReasoner to automate the design of query-level multi-agent systems, i.e., one system per user query. Our core idea is to incentivize a reasoning-based meta-agent via external execution feedback. Concretely, by distilling DeepSeek R1, we first endow the basic reasoning ability regarding the generation of multi-agent systems to FlowReasoner. Then, we further enhance it via reinforcement learning (RL) with external execution feedback. A multi-purpose reward is designed to guide the RL training from aspects of performance, complexity, and efficiency. In this manner, FlowReasoner is enabled to generate a personalized multi-agent system for each user query via deliberative reasoning. Experiments on both engineering and competition code benchmarks demonstrate the superiority of FlowReasoner. Remarkably, it surpasses o1-mini by 10.52% accuracy across three benchmarks. The code is available at https://github.com/sail-sg/FlowReasoner.

Summary

AI-Generated Summary

PDF462April 22, 2025