Optimización del Sistema Agente en el Flujo para una Planificación y Uso de Herramientas Efectivos
In-the-Flow Agentic System Optimization for Effective Planning and Tool Use
October 7, 2025
Autores: Zhuofeng Li, Haoxiang Zhang, Seungju Han, Sheng Liu, Jianwen Xie, Yu Zhang, Yejin Choi, James Zou, Pan Lu
cs.AI
Resumen
El aprendizaje por refuerzo basado en resultados ha avanzado el razonamiento en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), pero los enfoques predominantes que utilizan herramientas entrenan una única política monolítica que intercala pensamientos y llamadas a herramientas bajo un contexto completo; esto escala de manera deficiente con horizontes largos y herramientas diversas y generaliza débilmente a nuevos escenarios. Los sistemas agentes ofrecen una alternativa prometedora al descomponer el trabajo en módulos especializados, aunque la mayoría sigue siendo libre de entrenamiento o depende de entrenamiento fuera de línea desacoplado de la dinámica en vivo de la interacción de múltiples turnos. Presentamos AgentFlow, un marco agente entrenable en el flujo que coordina cuatro módulos (planificador, ejecutor, verificador, generador) a través de una memoria en evolución y optimiza directamente su planificador dentro del bucle de múltiples turnos. Para entrenar en política en entornos en vivo, proponemos la Optimización de Política Refinada Basada en Grupos de Flujo (Flow-GRPO, por sus siglas en inglés), que aborda la asignación de crédito de recompensas escasas en horizontes largos al convertir la optimización de múltiples turnos en una secuencia de actualizaciones de política de un solo turno manejables. Transmite un único resultado verificable a nivel de trayectoria a cada turno para alinear las decisiones locales del planificador con el éxito global y estabiliza el aprendizaje con ventajas normalizadas por grupo. En diez puntos de referencia, AgentFlow con un núcleo de 7B supera a los mejores modelos de referencia con ganancias promedio de precisión del 14.9% en búsqueda, 14.0% en tareas agentes, 14.5% en matemáticas y 4.1% en tareas científicas, incluso superando a modelos propietarios más grandes como GPT-4o. Análisis adicionales confirman los beneficios de la optimización en el flujo, mostrando una planificación mejorada, una mayor confiabilidad en las llamadas a herramientas y un escalado positivo con el tamaño del modelo y los turnos de razonamiento.
English
Outcome-driven reinforcement learning has advanced reasoning in large
language models (LLMs), but prevailing tool-augmented approaches train a
single, monolithic policy that interleaves thoughts and tool calls under full
context; this scales poorly with long horizons and diverse tools and
generalizes weakly to new scenarios. Agentic systems offer a promising
alternative by decomposing work across specialized modules, yet most remain
training-free or rely on offline training decoupled from the live dynamics of
multi-turn interaction. We introduce AgentFlow, a trainable, in-the-flow
agentic framework that coordinates four modules (planner, executor, verifier,
generator) through an evolving memory and directly optimizes its planner inside
the multi-turn loop. To train on-policy in live environments, we propose
Flow-based Group Refined Policy Optimization (Flow-GRPO), which tackles
long-horizon, sparse-reward credit assignment by converting multi-turn
optimization into a sequence of tractable single-turn policy updates. It
broadcasts a single, verifiable trajectory-level outcome to every turn to align
local planner decisions with global success and stabilizes learning with
group-normalized advantages. Across ten benchmarks, AgentFlow with a 7B-scale
backbone outperforms top-performing baselines with average accuracy gains of
14.9% on search, 14.0% on agentic, 14.5% on mathematical, and 4.1% on
scientific tasks, even surpassing larger proprietary models like GPT-4o.
Further analyses confirm the benefits of in-the-flow optimization, showing
improved planning, enhanced tool-calling reliability, and positive scaling with
model size and reasoning turns.