InfoPO: Ottimizzazione delle Politiche Guidata dall'Informazione per Agenti Centrati sull'Utente

Abstract

Le richieste degli utenti reali agli agenti LLM sono spesso sotto-specificate. Gli agenti devono interagire per acquisire informazioni mancanti e prendere decisioni corrette a valle. Tuttavia, gli attuali metodi basati su GRPO multi-turn spesso fanno affidamento su calcoli di ricompensa a livello di traiettoria, il che porta a problemi di assegnazione del credito e a segnali di vantaggio insufficienti all'interno dei gruppi di rollout. Un approccio fattibile è identificare turni di interazione preziosi a livello granulare fine per guidare un apprendimento più mirato. Per affrontare ciò, introduciamo InfoPO (Information-Driven Policy Optimization), che inquadra l'interazione multi-turn come un processo di riduzione attiva dell'incertezza e calcola una ricompensa basata sul guadagno informativo che attribuisce credito ai turni il cui feedback modifica in modo misurabile la distribuzione delle azioni successive dell'agente rispetto a un controfattuale a feedback mascherato. Questo segnale viene poi combinato con i risultati del task tramite una fusione adattiva controllata dalla varianza per identificare l'importanza informativa mantenendo al contempo la direzionalità orientata al task. In vari compiti, tra cui chiarimento delle intenzioni, programmazione collaborativa e processo decisionale potenziato da strumenti, InfoPO supera costantemente i metodi di prompting e le baseline di RL multi-turn. Dimostra inoltre robustezza sotto cambiamenti del simulatore utente e generalizza efficacemente a compiti di interazione ambientale. Nel complesso, InfoPO fornisce un meccanismo principiato e scalabile per ottimizzare la complessa collaborazione agente-utente. Il codice è disponibile su https://github.com/kfq20/InfoPO.

English

Real-world user requests to LLM agents are often underspecified. Agents must interact to acquire missing information and make correct downstream decisions. However, current multi-turn GRPO-based methods often rely on trajectory-level reward computation, which leads to credit assignment problems and insufficient advantage signals within rollout groups. A feasible approach is to identify valuable interaction turns at a fine granularity to drive more targeted learning. To address this, we introduce InfoPO (Information-Driven Policy Optimization), which frames multi-turn interaction as a process of active uncertainty reduction and computes an information-gain reward that credits turns whose feedback measurably changes the agent's subsequent action distribution compared to a masked-feedback counterfactual. It then combines this signal with task outcomes via an adaptive variance-gated fusion to identify information importance while maintaining task-oriented goal direction. Across diverse tasks, including intent clarification, collaborative coding, and tool-augmented decision making, InfoPO consistently outperforms prompting and multi-turn RL baselines. It also demonstrates robustness under user simulator shifts and generalizes effectively to environment-interactive tasks. Overall, InfoPO provides a principled and scalable mechanism for optimizing complex agent-user collaboration. Code is available at https://github.com/kfq20/InfoPO.

InfoPO: Ottimizzazione delle Politiche Guidata dall'Informazione per Agenti Centrati sull'Utente

InfoPO: Information-Driven Policy Optimization for User-Centric Agents

Abstract

Support