InfoPO: Otimização de Políticas Orientada por Informação para Agentes Centrados no Usuário

Resumo

Os pedidos de usuários do mundo real a agentes de LLM são frequentemente subespecificados. Os agentes devem interagir para adquirir informações ausentes e tomar decisões corretas a jusante. No entanto, os métodos atuais baseados em GRPO multiturma frequentemente dependem do cálculo de recompensa a nível de trajetória, o que leva a problemas de atribuição de crédito e sinais de vantagem insuficientes dentro dos grupos de rollout. Uma abordagem viável é identificar turnos de interação valiosos em uma granularidade fina para impulsionar um aprendizado mais direcionado. Para resolver isso, introduzimos o InfoPO (Otimização de Política Orientada por Informação), que enquadra a interação multiturma como um processo de redução ativa de incerteza e calcula uma recompensa de ganho de informação que credita turnos cujo feedback altera mensuravelmente a distribuição de ações subsequentes do agente em comparação com um contrafactual de feedback mascarado. Ele então combina este sinal com os resultados da tarefa por meio de uma fusão adaptativa com portão de variância para identificar a importância da informação, mantendo ao mesmo tempo a direção do objetivo orientado à tarefa. Em diversas tarefas, incluindo clarificação de intenção, codificação colaborativa e tomada de decisão aumentada por ferramentas, o InfoPO supera consistentemente os métodos de prompting e os baselines de RL multiturma. Ele também demonstra robustez sob mudanças no simulador de usuário e generaliza efetivamente para tarefas interativas com o ambiente. No geral, o InfoPO fornece um mecanismo fundamentado e escalável para otimizar a colaboração complexa entre agente e usuário. O código está disponível em https://github.com/kfq20/InfoPO.

English

Real-world user requests to LLM agents are often underspecified. Agents must interact to acquire missing information and make correct downstream decisions. However, current multi-turn GRPO-based methods often rely on trajectory-level reward computation, which leads to credit assignment problems and insufficient advantage signals within rollout groups. A feasible approach is to identify valuable interaction turns at a fine granularity to drive more targeted learning. To address this, we introduce InfoPO (Information-Driven Policy Optimization), which frames multi-turn interaction as a process of active uncertainty reduction and computes an information-gain reward that credits turns whose feedback measurably changes the agent's subsequent action distribution compared to a masked-feedback counterfactual. It then combines this signal with task outcomes via an adaptive variance-gated fusion to identify information importance while maintaining task-oriented goal direction. Across diverse tasks, including intent clarification, collaborative coding, and tool-augmented decision making, InfoPO consistently outperforms prompting and multi-turn RL baselines. It also demonstrates robustness under user simulator shifts and generalizes effectively to environment-interactive tasks. Overall, InfoPO provides a principled and scalable mechanism for optimizing complex agent-user collaboration. Code is available at https://github.com/kfq20/InfoPO.

InfoPO: Otimização de Políticas Orientada por Informação para Agentes Centrados no Usuário

InfoPO: Information-Driven Policy Optimization for User-Centric Agents

Resumo

Support