ChatPaper.aiChatPaper

Оптимизация политик на основе прироста информации: простой и эффективный подход для многошаговых агентов с использованием больших языковых моделей

Information Gain-based Policy Optimization: A Simple and Effective Approach for Multi-Turn LLM Agents

October 16, 2025
Авторы: Guoqing Wang, Sunhao Dai, Guangze Ye, Zeyu Gan, Wei Yao, Yong Deng, Xiaofeng Wu, Zhenzhe Ying
cs.AI

Аннотация

Агенты на основе больших языковых моделей (LLM) всё чаще обучаются с использованием обучения с подкреплением (RL) для улучшения их способности взаимодействовать с внешними средами через использование инструментов, особенно в поисковых задачах, требующих многошагового рассуждения и приобретения знаний. Однако существующие подходы обычно полагаются на награды, основанные на результате, которые предоставляются только на финальном ответе. Эта разреженность наград становится особенно проблематичной в многошаговых сценариях, где длинные траектории усугубляют две ключевые проблемы: (i) коллапс преимущества, когда все траектории получают одинаковые награды и не предоставляют полезных сигналов для обучения, и (ii) отсутствие детального распределения заслуг, где зависимости между шагами скрыты, особенно в задачах с длительным горизонтом. В данной работе мы предлагаем Оптимизацию политики на основе прироста информации (IGPO), простую, но эффективную RL-структуру, которая обеспечивает плотное и внутреннее управление для обучения агентов в многошаговых сценариях. IGPO моделирует каждый шаг взаимодействия как инкрементальный процесс получения информации о правильном ответе и определяет награды на уровне шага как маргинальное увеличение вероятности политики в создании правильного ответа. В отличие от предыдущих подходов, основанных на наградах на уровне процесса, которые зависят от внешних моделей наград или дорогостоящего Монте-Карло оценивания, IGPO извлекает внутренние награды непосредственно из обновлений собственных убеждений модели. Эти внутренние награды на уровне шага объединяются с управлением на уровне результата для формирования плотных траекторий наград. Экстенсивные эксперименты на внутридоменных и внедоменных тестах демонстрируют, что IGPO стабильно превосходит сильные базовые подходы в многошаговых сценариях, достигая более высокой точности и улучшенной эффективности выборки.
English
Large language model (LLM)-based agents are increasingly trained with reinforcement learning (RL) to enhance their ability to interact with external environments through tool use, particularly in search-based settings that require multi-turn reasoning and knowledge acquisition. However, existing approaches typically rely on outcome-based rewards that are only provided at the final answer. This reward sparsity becomes particularly problematic in multi-turn settings, where long trajectories exacerbate two critical issues: (i) advantage collapse, where all rollouts receive identical rewards and provide no useful learning signals, and (ii) lack of fine-grained credit assignment, where dependencies between turns are obscured, especially in long-horizon tasks. In this paper, we propose Information Gain-based Policy Optimization (IGPO), a simple yet effective RL framework that provides dense and intrinsic supervision for multi-turn agent training. IGPO models each interaction turn as an incremental process of acquiring information about the ground truth, and defines turn-level rewards as the marginal increase in the policy's probability of producing the correct answer. Unlike prior process-level reward approaches that depend on external reward models or costly Monte Carlo estimation, IGPO derives intrinsic rewards directly from the model's own belief updates. These intrinsic turn-level rewards are combined with outcome-level supervision to form dense reward trajectories. Extensive experiments on both in-domain and out-of-domain benchmarks demonstrate that IGPO consistently outperforms strong baselines in multi-turn scenarios, achieving higher accuracy and improved sample efficiency.
PDF322October 17, 2025