ChatPaper.aiChatPaper

Optimisation de Politique basée sur le Gain d'Information : Une Approche Simple et Efficace pour les Agents LLM Multi-Tours

Information Gain-based Policy Optimization: A Simple and Effective Approach for Multi-Turn LLM Agents

October 16, 2025
papers.authors: Guoqing Wang, Sunhao Dai, Guangze Ye, Zeyu Gan, Wei Yao, Yong Deng, Xiaofeng Wu, Zhenzhe Ying
cs.AI

papers.abstract

Les agents basés sur des modèles de langage de grande taille (LLM) sont de plus en plus entraînés à l'aide de l'apprentissage par renforcement (RL) pour améliorer leur capacité à interagir avec des environnements externes via l'utilisation d'outils, en particulier dans des contextes de recherche nécessitant un raisonnement multi-tours et une acquisition de connaissances. Cependant, les approches existantes reposent généralement sur des récompenses basées sur les résultats, qui ne sont fournies qu'à la réponse finale. Cette rareté des récompenses devient particulièrement problématique dans les scénarios multi-tours, où les longues trajectoires exacerbent deux problèmes critiques : (i) l'effondrement de l'avantage, où tous les déploiements reçoivent des récompenses identiques et ne fournissent aucun signal d'apprentissage utile, et (ii) le manque d'attribution de crédit fine, où les dépendances entre les tours sont obscurcies, en particulier dans les tâches à long terme. Dans cet article, nous proposons l'Optimisation de Politique basée sur le Gain d'Information (IGPO), un cadre RL simple mais efficace qui fournit une supervision dense et intrinsèque pour l'entraînement d'agents multi-tours. IGPO modélise chaque tour d'interaction comme un processus incrémental d'acquisition d'informations sur la vérité terrain, et définit les récompenses au niveau du tour comme l'augmentation marginale de la probabilité de la politique de produire la réponse correcte. Contrairement aux approches précédentes de récompense au niveau du processus qui dépendent de modèles de récompense externes ou d'estimations coûteuses de Monte Carlo, IGPO dérive des récompenses intrinsèques directement des mises à jour de croyance du modèle lui-même. Ces récompenses intrinsèques au niveau du tour sont combinées avec une supervision au niveau des résultats pour former des trajectoires de récompense denses. Des expériences approfondies sur des benchmarks intra-domaines et extra-domaines démontrent qu'IGPO surpasse systématiquement les bases de référence solides dans les scénarios multi-tours, atteignant une précision plus élevée et une efficacité d'échantillonnage améliorée.
English
Large language model (LLM)-based agents are increasingly trained with reinforcement learning (RL) to enhance their ability to interact with external environments through tool use, particularly in search-based settings that require multi-turn reasoning and knowledge acquisition. However, existing approaches typically rely on outcome-based rewards that are only provided at the final answer. This reward sparsity becomes particularly problematic in multi-turn settings, where long trajectories exacerbate two critical issues: (i) advantage collapse, where all rollouts receive identical rewards and provide no useful learning signals, and (ii) lack of fine-grained credit assignment, where dependencies between turns are obscured, especially in long-horizon tasks. In this paper, we propose Information Gain-based Policy Optimization (IGPO), a simple yet effective RL framework that provides dense and intrinsic supervision for multi-turn agent training. IGPO models each interaction turn as an incremental process of acquiring information about the ground truth, and defines turn-level rewards as the marginal increase in the policy's probability of producing the correct answer. Unlike prior process-level reward approaches that depend on external reward models or costly Monte Carlo estimation, IGPO derives intrinsic rewards directly from the model's own belief updates. These intrinsic turn-level rewards are combined with outcome-level supervision to form dense reward trajectories. Extensive experiments on both in-domain and out-of-domain benchmarks demonstrate that IGPO consistently outperforms strong baselines in multi-turn scenarios, achieving higher accuracy and improved sample efficiency.
PDF322October 17, 2025