InfoPO : Optimisation de Politique Guidée par l'Information pour des Agents Centrés sur l'Utilisateur

Résumé

Les requêtes des utilisateurs réelles adressées aux agents LLM sont souvent sous-spécifiées. Les agents doivent interagir pour acquérir les informations manquantes et prendre des décisions aval correctes. Cependant, les méthodes actuelles basées sur GRPO multi-tours reposent souvent sur un calcul de récompense au niveau de la trajectoire, ce qui entraîne des problèmes d'attribution de crédit et des signaux d'avantage insuffisants dans les groupes de déploiement. Une approche réalisable consiste à identifier les tours d'interaction précieux à granularité fine pour piloter un apprentissage plus ciblé. Pour résoudre ce problème, nous présentons InfoPO (Optimisation de Politique Pilotée par l'Information), qui modélise l'interaction multi-tours comme un processus de réduction active de l'incertitude et calcule une récompense basée sur le gain d'information. Cette récompense attribue du crédit aux tours dont les retours modifient de manière mesurable la distribution des actions ultérieures de l'agent par rapport à un contrefactuel à retours masqués. Ce signal est ensuite combiné aux résultats de la tâche via une fusion adaptative à variance contrôlée, permettant d'identifier l'importance informationnelle tout en maintenant l'orientation vers l'objectif opérationnel. Sur diverses tâches, incluant la clarification d'intention, la programmation collaborative et la prise de décision assistée par outils, InfoPO surpasse constamment les méthodes par prompting et les approches d'apprentissage par renforcement multi-tours de référence. Il démontre également une robustesse face aux changements de simulateurs d'utilisateurs et généralise efficacement aux tâches interactives avec l'environnement. Globalement, InfoPO fournit un mécanisme principé et évolutif pour optimiser la collaboration complexe entre agent et utilisateur. Le code est disponible à l'adresse https://github.com/kfq20/InfoPO.

English

Real-world user requests to LLM agents are often underspecified. Agents must interact to acquire missing information and make correct downstream decisions. However, current multi-turn GRPO-based methods often rely on trajectory-level reward computation, which leads to credit assignment problems and insufficient advantage signals within rollout groups. A feasible approach is to identify valuable interaction turns at a fine granularity to drive more targeted learning. To address this, we introduce InfoPO (Information-Driven Policy Optimization), which frames multi-turn interaction as a process of active uncertainty reduction and computes an information-gain reward that credits turns whose feedback measurably changes the agent's subsequent action distribution compared to a masked-feedback counterfactual. It then combines this signal with task outcomes via an adaptive variance-gated fusion to identify information importance while maintaining task-oriented goal direction. Across diverse tasks, including intent clarification, collaborative coding, and tool-augmented decision making, InfoPO consistently outperforms prompting and multi-turn RL baselines. It also demonstrates robustness under user simulator shifts and generalizes effectively to environment-interactive tasks. Overall, InfoPO provides a principled and scalable mechanism for optimizing complex agent-user collaboration. Code is available at https://github.com/kfq20/InfoPO.

InfoPO : Optimisation de Politique Guidée par l'Information pour des Agents Centrés sur l'Utilisateur

InfoPO: Information-Driven Policy Optimization for User-Centric Agents

Résumé

Support