Otimização de Sistemas Agentes em Fluxo para Planejamento Eficaz e Uso de Ferramentas
In-the-Flow Agentic System Optimization for Effective Planning and Tool Use
October 7, 2025
Autores: Zhuofeng Li, Haoxiang Zhang, Seungju Han, Sheng Liu, Jianwen Xie, Yu Zhang, Yejin Choi, James Zou, Pan Lu
cs.AI
Resumo
O aprendizado por reforço orientado a resultados avançou o raciocínio em modelos de linguagem de grande escala (LLMs), mas as abordagens predominantes que utilizam ferramentas treinam uma única política monolítica que intercala pensamentos e chamadas de ferramentas sob contexto completo; isso escala mal com horizontes longos e ferramentas diversas e generaliza fracamente para novos cenários. Sistemas agentes oferecem uma alternativa promissora ao decompor o trabalho em módulos especializados, mas a maioria permanece sem treinamento ou depende de treinamento offline desacoplado da dinâmica ao vivo da interação multi-turn. Introduzimos o AgentFlow, um framework agentic treinável em fluxo que coordena quatro módulos (planejador, executor, verificador, gerador) por meio de uma memória em evolução e otimiza diretamente seu planejador dentro do loop multi-turn. Para treinar em política em ambientes ao vivo, propomos o Flow-based Group Refined Policy Optimization (Flow-GRPO), que aborda a atribuição de crédito de longo horizonte e recompensa esparsa ao converter a otimização multi-turn em uma sequência de atualizações de política de turno único tratáveis. Ele transmite um único resultado verificável em nível de trajetória para cada turno para alinhar as decisões locais do planejador com o sucesso global e estabiliza o aprendizado com vantagens normalizadas por grupo. Em dez benchmarks, o AgentFlow com um backbone de 7B supera as principais linhas de base com ganhos médios de precisão de 14,9% em busca, 14,0% em tarefas agentes, 14,5% em matemáticas e 4,1% em científicas, superando até mesmo modelos proprietários maiores como o GPT-4o. Análises adicionais confirmam os benefícios da otimização em fluxo, mostrando planejamento aprimorado, confiabilidade aumentada na chamada de ferramentas e escalabilidade positiva com o tamanho do modelo e turnos de raciocínio.
English
Outcome-driven reinforcement learning has advanced reasoning in large
language models (LLMs), but prevailing tool-augmented approaches train a
single, monolithic policy that interleaves thoughts and tool calls under full
context; this scales poorly with long horizons and diverse tools and
generalizes weakly to new scenarios. Agentic systems offer a promising
alternative by decomposing work across specialized modules, yet most remain
training-free or rely on offline training decoupled from the live dynamics of
multi-turn interaction. We introduce AgentFlow, a trainable, in-the-flow
agentic framework that coordinates four modules (planner, executor, verifier,
generator) through an evolving memory and directly optimizes its planner inside
the multi-turn loop. To train on-policy in live environments, we propose
Flow-based Group Refined Policy Optimization (Flow-GRPO), which tackles
long-horizon, sparse-reward credit assignment by converting multi-turn
optimization into a sequence of tractable single-turn policy updates. It
broadcasts a single, verifiable trajectory-level outcome to every turn to align
local planner decisions with global success and stabilizes learning with
group-normalized advantages. Across ten benchmarks, AgentFlow with a 7B-scale
backbone outperforms top-performing baselines with average accuracy gains of
14.9% on search, 14.0% on agentic, 14.5% on mathematical, and 4.1% on
scientific tasks, even surpassing larger proprietary models like GPT-4o.
Further analyses confirm the benefits of in-the-flow optimization, showing
improved planning, enhanced tool-calling reliability, and positive scaling with
model size and reasoning turns.