정보 획득 기반 정책 최적화: 다중 턴 LLM 에이전트를 위한 간단하고 효과적인 접근법
Information Gain-based Policy Optimization: A Simple and Effective Approach for Multi-Turn LLM Agents
October 16, 2025
저자: Guoqing Wang, Sunhao Dai, Guangze Ye, Zeyu Gan, Wei Yao, Yong Deng, Xiaofeng Wu, Zhenzhe Ying
cs.AI
초록
대형 언어 모델(LLM) 기반 에이전트는 도구 사용을 통해 외부 환경과 상호작용하는 능력을 향상시키기 위해 강화 학습(RL)을 점점 더 많이 훈련받고 있으며, 특히 다중 턴 추론과 지식 습득이 필요한 검색 기반 환경에서 그러하다. 그러나 기존 접근 방식은 일반적으로 최종 답변에서만 제공되는 결과 기반 보상에 의존한다. 이러한 보상 희소성은 긴 궤적으로 인해 두 가지 중요한 문제를 악화시키는 다중 턴 환경에서 특히 문제가 된다: (i) 모든 롤아웃이 동일한 보상을 받아 유용한 학습 신호를 제공하지 않는 이점 붕괴(advantage collapse), 그리고 (ii) 턴 간의 의존성이 모호해지는 세밀한 신용 할당의 부재, 특히 장기적인 작업에서 그러하다. 본 논문에서는 다중 턴 에이전트 훈련을 위한 밀집하고 내재적인 감독을 제공하는 간단하지만 효과적인 RL 프레임워크인 정보 획득 기반 정책 최적화(Information Gain-based Policy Optimization, IGPO)를 제안한다. IGPO는 각 상호작용 턴을 실제 정답에 대한 정보를 점진적으로 획득하는 과정으로 모델링하고, 턴 수준 보상을 정책이 정답을 생성할 확률의 한계 증가로 정의한다. 외부 보상 모델이나 비용이 많이 드는 몬테카를로 추정에 의존하는 기존의 프로세스 수준 보상 접근 방식과 달리, IGPO는 모델 자체의 신념 업데이트에서 직접 내재적 보상을 도출한다. 이러한 내재적 턴 수준 보상은 결과 수준 감독과 결합되어 밀집된 보상 궤적을 형성한다. 도메인 내 및 도메인 외 벤치마크에서의 광범위한 실험을 통해 IGPO가 다중 턴 시나리오에서 강력한 베이스라인을 일관되게 능가하며, 더 높은 정확도와 개선된 샘플 효율성을 달성함을 입증하였다.
English
Large language model (LLM)-based agents are increasingly trained with
reinforcement learning (RL) to enhance their ability to interact with external
environments through tool use, particularly in search-based settings that
require multi-turn reasoning and knowledge acquisition. However, existing
approaches typically rely on outcome-based rewards that are only provided at
the final answer. This reward sparsity becomes particularly problematic in
multi-turn settings, where long trajectories exacerbate two critical issues:
(i) advantage collapse, where all rollouts receive identical rewards and
provide no useful learning signals, and (ii) lack of fine-grained credit
assignment, where dependencies between turns are obscured, especially in
long-horizon tasks. In this paper, we propose Information Gain-based Policy
Optimization (IGPO), a simple yet effective RL framework that provides dense
and intrinsic supervision for multi-turn agent training. IGPO models each
interaction turn as an incremental process of acquiring information about the
ground truth, and defines turn-level rewards as the marginal increase in the
policy's probability of producing the correct answer. Unlike prior
process-level reward approaches that depend on external reward models or costly
Monte Carlo estimation, IGPO derives intrinsic rewards directly from the
model's own belief updates. These intrinsic turn-level rewards are combined
with outcome-level supervision to form dense reward trajectories. Extensive
experiments on both in-domain and out-of-domain benchmarks demonstrate that
IGPO consistently outperforms strong baselines in multi-turn scenarios,
achieving higher accuracy and improved sample efficiency.