情報利得に基づく方策最適化:多ターンLLMエージェントのためのシンプルで効果的なアプローチ
Information Gain-based Policy Optimization: A Simple and Effective Approach for Multi-Turn LLM Agents
October 16, 2025
著者: Guoqing Wang, Sunhao Dai, Guangze Ye, Zeyu Gan, Wei Yao, Yong Deng, Xiaofeng Wu, Zhenzhe Ying
cs.AI
要旨
大規模言語モデル(LLM)ベースのエージェントは、外部環境との相互作用能力を向上させるため、特に多段階の推論と知識獲得を必要とする検索ベースの設定において、強化学習(RL)を用いて訓練されることが増えている。しかし、既存のアプローチは通常、最終的な回答時にのみ提供される結果ベースの報酬に依存している。この報酬の希薄性は、長い軌跡が二つの重要な問題を悪化させる多段階設定において特に問題となる:(i)全てのロールアウトが同一の報酬を受け取り、有用な学習信号を提供しない「アドバンテージ崩壊」、(ii)特に長期的なタスクにおいて、段階間の依存関係が不明瞭になる「細粒度のクレジット割り当ての欠如」。本論文では、多段階エージェント訓練に対して密で内在的な監督を提供する、シンプルかつ効果的なRLフレームワークである「情報獲得に基づくポリシー最適化(IGPO)」を提案する。IGPOは、各相互作用段階を真実に関する情報を段階的に獲得するプロセスとしてモデル化し、段階レベルの報酬を正しい回答を生成するポリシーの確率の限界的増加として定義する。外部報酬モデルや高コストなモンテカルロ推定に依存する従来のプロセスレベル報酬アプローチとは異なり、IGPOはモデル自身の信念更新から直接内在的報酬を導出する。これらの内在的段階レベル報酬は、結果レベルの監督と組み合わされ、密な報酬軌跡を形成する。ドメイン内およびドメイン外のベンチマークにおける広範な実験により、IGPOが多段階シナリオにおいて強力なベースラインを一貫して上回り、より高い精度と改善されたサンプル効率を達成することが実証された。
English
Large language model (LLM)-based agents are increasingly trained with
reinforcement learning (RL) to enhance their ability to interact with external
environments through tool use, particularly in search-based settings that
require multi-turn reasoning and knowledge acquisition. However, existing
approaches typically rely on outcome-based rewards that are only provided at
the final answer. This reward sparsity becomes particularly problematic in
multi-turn settings, where long trajectories exacerbate two critical issues:
(i) advantage collapse, where all rollouts receive identical rewards and
provide no useful learning signals, and (ii) lack of fine-grained credit
assignment, where dependencies between turns are obscured, especially in
long-horizon tasks. In this paper, we propose Information Gain-based Policy
Optimization (IGPO), a simple yet effective RL framework that provides dense
and intrinsic supervision for multi-turn agent training. IGPO models each
interaction turn as an incremental process of acquiring information about the
ground truth, and defines turn-level rewards as the marginal increase in the
policy's probability of producing the correct answer. Unlike prior
process-level reward approaches that depend on external reward models or costly
Monte Carlo estimation, IGPO derives intrinsic rewards directly from the
model's own belief updates. These intrinsic turn-level rewards are combined
with outcome-level supervision to form dense reward trajectories. Extensive
experiments on both in-domain and out-of-domain benchmarks demonstrate that
IGPO consistently outperforms strong baselines in multi-turn scenarios,
achieving higher accuracy and improved sample efficiency.