InfoPO: ユーザー中心エージェントのための情報駆動型ポリシー最適化
InfoPO: Information-Driven Policy Optimization for User-Centric Agents
February 28, 2026
著者: Fanqi Kong, Jiayi Zhang, Mingyi Deng, Chenglin Wu, Yuyu Luo, Bang Liu
cs.AI
要旨
実世界におけるLLMエージェントへのユーザー要求は、多くの場合が不完全な仕様である。エージェントは対話を通じて不足情報を獲得し、下流の意思決定を正確に行わなければならない。しかし、現在のマルチターンGRPOベースの手法は、軌跡レベルの報酬計算に依存することが多く、これはクレジット割り当て問題やロールアウトグループ内での不十分なアドバンテージ信号を引き起こす。有望なアプローチとして、よりターゲットを絞った学習を推進するために、価値のある対話ターンを細かい粒度で特定することが挙げられる。この問題に対処するため、我々はInfoPO(情報駆動型方策最適化)を提案する。InfoPOはマルチターン対話を能動的な不確実性低減プロセスとして捉え、エージェントの後続の行動分布を、フィードバックをマスクした反事実的シナリオと比較して測定可能な変化をもたらすターンにクレジットを与える、情報利得報酬を計算する。次に、この信号をタスク成果と適応的分散ゲート融合により組み合わせることで、タスク指向の目標方向性を維持しつつ、情報の重要性を特定する。意図の明確化、協調的コーディング、ツール拡張意思決定を含む多様なタスクにおいて、InfoPOはプロンプティングやマルチターン強化学習のベースライン手法を一貫して上回る。また、ユーザーシミュレータの変化下での頑健性を示し、環境対話型タスクへ効果的に一般化する。全体として、InfoPOは複雑なエージェントとユーザーの協調を最適化するための原理的かつスケーラブルなメカニズムを提供する。コードはhttps://github.com/kfq20/InfoPO で公開されている。
English
Real-world user requests to LLM agents are often underspecified. Agents must interact to acquire missing information and make correct downstream decisions. However, current multi-turn GRPO-based methods often rely on trajectory-level reward computation, which leads to credit assignment problems and insufficient advantage signals within rollout groups. A feasible approach is to identify valuable interaction turns at a fine granularity to drive more targeted learning. To address this, we introduce InfoPO (Information-Driven Policy Optimization), which frames multi-turn interaction as a process of active uncertainty reduction and computes an information-gain reward that credits turns whose feedback measurably changes the agent's subsequent action distribution compared to a masked-feedback counterfactual. It then combines this signal with task outcomes via an adaptive variance-gated fusion to identify information importance while maintaining task-oriented goal direction. Across diverse tasks, including intent clarification, collaborative coding, and tool-augmented decision making, InfoPO consistently outperforms prompting and multi-turn RL baselines. It also demonstrates robustness under user simulator shifts and generalizes effectively to environment-interactive tasks. Overall, InfoPO provides a principled and scalable mechanism for optimizing complex agent-user collaboration. Code is available at https://github.com/kfq20/InfoPO.