指令方策共進化によるエージェンシック方策最適化
Agentic Policy Optimization via Instruction-Policy Co-Evolution
December 1, 2025
著者: Han Zhou, Xingchen Wan, Ivan Vulić, Anna Korhonen
cs.AI
要旨
検証可能な報酬を用いた強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を向上させ、効果的なマルチターンおよびツール統合型の推論を実行する自律エージェントを実現してきた。エージェントを定義する主要なプロトコルとして指示文が用いられるが、RLVRでは一般に、静的に手設計された指示文に依存している。しかし、これらの指示文は基盤モデルに対して最適ではない可能性があり、最適な指示文は、エージェントの方策が改善され環境との相互作用が探索されるにつれて変化する可能性がある。この隔たりを埋めるため、我々は指示文最適化を強化学習(RL)ループの動的要素として統合する、新しい指示文-方策共進化フレームワークであるINSPOを提案する。INSPOは、質問と共にサンプリングされる動的な指示文候補群を維持し、RLループ内の報酬信号が各指示文に自動的に帰属され、低性能の指示文は定期的に剪定される。新しい指示文は、方策に基づく反射メカニズムを通じて生成・検証される。これは、LLMベースのオプティマイザがリプレイバッファからの過去の経験を分析し、現在の方策を踏まえてより効果的な戦略を進化させるものである。マルチターン検索および推論タスクにおいて広範な実験を行い、INSPOが静的な指示文に依存する強力なベースラインを大幅に上回ることを実証した。INSPOは、エージェントをより戦略的な推論経路へ導く革新的な指示文を発見し、計算オーバーヘッドのわずかな増加のみで大幅な性能向上を達成する。
English
Reinforcement Learning with Verifiable Rewards (RLVR) has advanced the reasoning capability of large language models (LLMs), enabling autonomous agents that can conduct effective multi-turn and tool-integrated reasoning. While instructions serve as the primary protocol for defining agents, RLVR typically relies on static and manually designed instructions. However, those instructions may be suboptimal for the base model, and the optimal instruction may change as the agent's policy improves and explores the interaction with the environment. To bridge the gap, we introduce INSPO, a novel Instruction-Policy co-evolution framework that integrates instruction optimization as a dynamic component of the reinforcement learning (RL) loop. INSPO maintains a dynamic population of instruction candidates that are sampled with questions, where reward signals in RL loops are automatically attributed to each instruction, and low performers are periodically pruned. New instructions are generated and verified through an on-policy reflection mechanism, where an LLM-based optimizer analyzes past experience from a replay buffer and evolves more effective strategies given the current policy. We conduct extensive experiments on multi-turn retrieval and reasoning tasks, demonstrating that INSPO substantially outperforms strong baselines relying on static instructions. INSPO discovers innovative instructions that guide the agent toward more strategic reasoning paths, achieving substantial performance gains with only a marginal increase in computational overhead.