Оптимизация агентных систем в потоке для эффективного планирования и использования инструментов
In-the-Flow Agentic System Optimization for Effective Planning and Tool Use
October 7, 2025
Авторы: Zhuofeng Li, Haoxiang Zhang, Seungju Han, Sheng Liu, Jianwen Xie, Yu Zhang, Yejin Choi, James Zou, Pan Lu
cs.AI
Аннотация
Обучение с подкреплением, ориентированное на результат, значительно продвинуло способность к рассуждению в больших языковых моделях (LLM), однако преобладающие подходы, использующие инструменты, обучают единую монолитную политику, которая чередует мысли и вызовы инструментов в полном контексте; это плохо масштабируется для длительных горизонтов и разнообразных инструментов и слабо обобщается на новые сценарии. Агентские системы предлагают многообещающую альтернативу, распределяя работу между специализированными модулями, однако большинство из них остаются без обучения или полагаются на оффлайн-обучение, оторванное от динамики многократного взаимодействия в реальном времени. Мы представляем AgentFlow, обучаемую агентскую структуру, которая координирует четыре модуля (планировщик, исполнитель, верификатор, генератор) через развивающуюся память и напрямую оптимизирует свой планировщик внутри цикла многократного взаимодействия. Для обучения в реальных средах мы предлагаем Flow-based Group Refined Policy Optimization (Flow-GRPO), который решает проблему распределения кредита для длительных горизонтов и редких наград, преобразуя многократную оптимизацию в последовательность управляемых обновлений политики для каждого шага. Он передает единый, проверяемый результат на уровне траектории на каждый шаг, чтобы согласовать локальные решения планировщика с глобальным успехом, и стабилизирует обучение с помощью групповой нормализации преимуществ. На десяти тестовых наборах AgentFlow с базовой моделью масштаба 7B превосходит лучшие базовые подходы с увеличением средней точности на 14,9% для задач поиска, 14,0% для агентских задач, 14,5% для математических задач и 4,1% для научных задач, даже опережая более крупные проприетарные модели, такие как GPT-4o. Дополнительные анализы подтверждают преимущества оптимизации в реальном времени, демонстрируя улучшенное планирование, повышенную надежность вызовов инструментов и положительное масштабирование с увеличением размера модели и количества шагов рассуждения.
English
Outcome-driven reinforcement learning has advanced reasoning in large
language models (LLMs), but prevailing tool-augmented approaches train a
single, monolithic policy that interleaves thoughts and tool calls under full
context; this scales poorly with long horizons and diverse tools and
generalizes weakly to new scenarios. Agentic systems offer a promising
alternative by decomposing work across specialized modules, yet most remain
training-free or rely on offline training decoupled from the live dynamics of
multi-turn interaction. We introduce AgentFlow, a trainable, in-the-flow
agentic framework that coordinates four modules (planner, executor, verifier,
generator) through an evolving memory and directly optimizes its planner inside
the multi-turn loop. To train on-policy in live environments, we propose
Flow-based Group Refined Policy Optimization (Flow-GRPO), which tackles
long-horizon, sparse-reward credit assignment by converting multi-turn
optimization into a sequence of tractable single-turn policy updates. It
broadcasts a single, verifiable trajectory-level outcome to every turn to align
local planner decisions with global success and stabilizes learning with
group-normalized advantages. Across ten benchmarks, AgentFlow with a 7B-scale
backbone outperforms top-performing baselines with average accuracy gains of
14.9% on search, 14.0% on agentic, 14.5% on mathematical, and 4.1% on
scientific tasks, even surpassing larger proprietary models like GPT-4o.
Further analyses confirm the benefits of in-the-flow optimization, showing
improved planning, enhanced tool-calling reliability, and positive scaling with
model size and reasoning turns.