InfoPO: Информационно - Управляемая Оптимизация Политики для Пользовательско - Ориентированных Агентов

Аннотация

Запросы реальных пользователей к агентам на основе больших языковых моделей часто недостаточно специфицированы. Агенты должны взаимодействовать, чтобы получить недостающую информацию и принимать корректные последующие решения. Однако современные методы, основанные на многошаговом GRPO, часто опираются на вычисление вознаграждения на уровне траектории, что приводит к проблемам распределения заслуг и недостаточным сигналам преимущества внутри групп rollout. Перспективный подход заключается в идентификации ценных шагов взаимодействия на более детальном уровне для обеспечения более целенаправленного обучения. Для решения этой проблемы мы представляем InfoPO (Информационно-ориентированная оптимизация политики), которая рассматривает многошаговое взаимодействие как процесс активного снижения неопределенности и вычисляет вознаграждение на основе информационного прироста. Это вознаграждение присваивает заслуги тем шагам, обратная связь которых заметно изменяет последующее распределение действий агента по сравнению с контрфактическим сценарием с маскированной обратной связью. Затем этот сигнал комбинируется с результатами задачи посредством адаптивного дисперсионно-управляемого слияния, чтобы определять важность информации, сохраняя при этом ориентацию на целевую задачу. В различных задачах, включая уточнение намерений, совместное программирование и принятие решений с использованием инструментов, InfoPO стабильно превосходит базовые методы prompting и многошагового обучения с подкреплением. Также метод демонстрирует устойчивость к изменениям в симуляторе пользователя и эффективно обобщается на задачи взаимодействия со средой. В целом, InfoPO предоставляет принципиальный и масштабируемый механизм для оптимизации сложного взаимодействия агента и пользователя. Код доступен по адресу https://github.com/kfq20/InfoPO.

English

Real-world user requests to LLM agents are often underspecified. Agents must interact to acquire missing information and make correct downstream decisions. However, current multi-turn GRPO-based methods often rely on trajectory-level reward computation, which leads to credit assignment problems and insufficient advantage signals within rollout groups. A feasible approach is to identify valuable interaction turns at a fine granularity to drive more targeted learning. To address this, we introduce InfoPO (Information-Driven Policy Optimization), which frames multi-turn interaction as a process of active uncertainty reduction and computes an information-gain reward that credits turns whose feedback measurably changes the agent's subsequent action distribution compared to a masked-feedback counterfactual. It then combines this signal with task outcomes via an adaptive variance-gated fusion to identify information importance while maintaining task-oriented goal direction. Across diverse tasks, including intent clarification, collaborative coding, and tool-augmented decision making, InfoPO consistently outperforms prompting and multi-turn RL baselines. It also demonstrates robustness under user simulator shifts and generalizes effectively to environment-interactive tasks. Overall, InfoPO provides a principled and scalable mechanism for optimizing complex agent-user collaboration. Code is available at https://github.com/kfq20/InfoPO.

InfoPO: Информационно - Управляемая Оптимизация Политики для Пользовательско - Ориентированных Агентов

InfoPO: Information-Driven Policy Optimization for User-Centric Agents

Аннотация

Support