InfoPO: Optimización de Políticas Impulsada por Información para Agentes Centrados en el Usuario

Resumen

Las solicitudes de usuarios del mundo real a los agentes de LLM a menudo están subespecificadas. Los agentes deben interactuar para adquirir la información faltante y tomar decisiones posteriores correctas. Sin embargo, los métodos actuales basados en GRPO de múltiples turnos a menudo dependen del cálculo de recompensas a nivel de trayectoria, lo que genera problemas de asignación de crédito y señales de ventaja insuficientes dentro de los grupos de ejecución. Un enfoque viable es identificar turnos de interacción valiosos con un grano fino para impulsar un aprendizaje más dirigido. Para abordar esto, presentamos InfoPO (Optimización de Políticas Impulsada por Información), que enmarca la interacción de múltiples turnos como un proceso de reducción activa de la incertidumbre y calcula una recompensa de ganancia de información que acredita los turnos cuya retroalimentación cambia mensurablemente la distribución de acciones posteriores del agente en comparación con un contrafactual de retroalimentación enmascarada. Luego, combina esta señal con los resultados de la tarea mediante una fusión adaptativa con compuerta de varianza para identificar la importancia de la información manteniendo al mismo tiempo la dirección orientada a la tarea. En diversas tareas, incluyendo la clarificación de intenciones, la codificación colaborativa y la toma de decisiones aumentada con herramientas, InfoPO supera consistentemente a los métodos de prompting y a los baselines de RL de múltiples turnos. También demuestra robustez ante cambios en el simulador de usuario y generaliza eficazmente a tareas de interacción con el entorno. En general, InfoPO proporciona un mecanismo fundamentado y escalable para optimizar la compleja colaboración agente-usuario. El código está disponible en https://github.com/kfq20/InfoPO.

English

Real-world user requests to LLM agents are often underspecified. Agents must interact to acquire missing information and make correct downstream decisions. However, current multi-turn GRPO-based methods often rely on trajectory-level reward computation, which leads to credit assignment problems and insufficient advantage signals within rollout groups. A feasible approach is to identify valuable interaction turns at a fine granularity to drive more targeted learning. To address this, we introduce InfoPO (Information-Driven Policy Optimization), which frames multi-turn interaction as a process of active uncertainty reduction and computes an information-gain reward that credits turns whose feedback measurably changes the agent's subsequent action distribution compared to a masked-feedback counterfactual. It then combines this signal with task outcomes via an adaptive variance-gated fusion to identify information importance while maintaining task-oriented goal direction. Across diverse tasks, including intent clarification, collaborative coding, and tool-augmented decision making, InfoPO consistently outperforms prompting and multi-turn RL baselines. It also demonstrates robustness under user simulator shifts and generalizes effectively to environment-interactive tasks. Overall, InfoPO provides a principled and scalable mechanism for optimizing complex agent-user collaboration. Code is available at https://github.com/kfq20/InfoPO.

InfoPO: Optimización de Políticas Impulsada por Información para Agentes Centrados en el Usuario

InfoPO: Information-Driven Policy Optimization for User-Centric Agents

Resumen

Support