Optimisation de Politique basée sur le Gain d'Information : Une Approche Simple et Efficace pour les Agents LLM Multi-Tours
Information Gain-based Policy Optimization: A Simple and Effective Approach for Multi-Turn LLM Agents
October 16, 2025
papers.authors: Guoqing Wang, Sunhao Dai, Guangze Ye, Zeyu Gan, Wei Yao, Yong Deng, Xiaofeng Wu, Zhenzhe Ying
cs.AI
papers.abstract
Les agents basés sur des modèles de langage de grande taille (LLM) sont de plus en plus entraînés à l'aide de l'apprentissage par renforcement (RL) pour améliorer leur capacité à interagir avec des environnements externes via l'utilisation d'outils, en particulier dans des contextes de recherche nécessitant un raisonnement multi-tours et une acquisition de connaissances. Cependant, les approches existantes reposent généralement sur des récompenses basées sur les résultats, qui ne sont fournies qu'à la réponse finale. Cette rareté des récompenses devient particulièrement problématique dans les scénarios multi-tours, où les longues trajectoires exacerbent deux problèmes critiques : (i) l'effondrement de l'avantage, où tous les déploiements reçoivent des récompenses identiques et ne fournissent aucun signal d'apprentissage utile, et (ii) le manque d'attribution de crédit fine, où les dépendances entre les tours sont obscurcies, en particulier dans les tâches à long terme. Dans cet article, nous proposons l'Optimisation de Politique basée sur le Gain d'Information (IGPO), un cadre RL simple mais efficace qui fournit une supervision dense et intrinsèque pour l'entraînement d'agents multi-tours. IGPO modélise chaque tour d'interaction comme un processus incrémental d'acquisition d'informations sur la vérité terrain, et définit les récompenses au niveau du tour comme l'augmentation marginale de la probabilité de la politique de produire la réponse correcte. Contrairement aux approches précédentes de récompense au niveau du processus qui dépendent de modèles de récompense externes ou d'estimations coûteuses de Monte Carlo, IGPO dérive des récompenses intrinsèques directement des mises à jour de croyance du modèle lui-même. Ces récompenses intrinsèques au niveau du tour sont combinées avec une supervision au niveau des résultats pour former des trajectoires de récompense denses. Des expériences approfondies sur des benchmarks intra-domaines et extra-domaines démontrent qu'IGPO surpasse systématiquement les bases de référence solides dans les scénarios multi-tours, atteignant une précision plus élevée et une efficacité d'échantillonnage améliorée.
English
Large language model (LLM)-based agents are increasingly trained with
reinforcement learning (RL) to enhance their ability to interact with external
environments through tool use, particularly in search-based settings that
require multi-turn reasoning and knowledge acquisition. However, existing
approaches typically rely on outcome-based rewards that are only provided at
the final answer. This reward sparsity becomes particularly problematic in
multi-turn settings, where long trajectories exacerbate two critical issues:
(i) advantage collapse, where all rollouts receive identical rewards and
provide no useful learning signals, and (ii) lack of fine-grained credit
assignment, where dependencies between turns are obscured, especially in
long-horizon tasks. In this paper, we propose Information Gain-based Policy
Optimization (IGPO), a simple yet effective RL framework that provides dense
and intrinsic supervision for multi-turn agent training. IGPO models each
interaction turn as an incremental process of acquiring information about the
ground truth, and defines turn-level rewards as the marginal increase in the
policy's probability of producing the correct answer. Unlike prior
process-level reward approaches that depend on external reward models or costly
Monte Carlo estimation, IGPO derives intrinsic rewards directly from the
model's own belief updates. These intrinsic turn-level rewards are combined
with outcome-level supervision to form dense reward trajectories. Extensive
experiments on both in-domain and out-of-domain benchmarks demonstrate that
IGPO consistently outperforms strong baselines in multi-turn scenarios,
achieving higher accuracy and improved sample efficiency.