Исследовательская среда проактивных агентов: моделирование активных пользователей для оценки проактивных ассистентов
Proactive Agent Research Environment: Simulating Active Users to Evaluate Proactive Assistants
April 1, 2026
Авторы: Deepak Nathani, Cheng Zhang, Chang Huan, Jiaming Shan, Yinfei Yang, Alkesh Patel, Zhe Gan, William Yang Wang, Michael Saxon, Xin Eric Wang
cs.AI
Аннотация
Активные агенты, предвосхищающие потребности пользователей и автономно выполняющие задачи, обладают большим потенциалом в качестве цифровых помощников, однако отсутствие реалистичных фреймворков для симуляции пользователей сдерживает их развитие. Существующие подходы моделируют приложения как плоские API вызова инструментов, не учитывая состоятельный и последовательный характер взаимодействия пользователя в цифровых средах, что делает реалистичное моделирование пользователя невозможным. Мы представляем Proactive Agent Research Environment (Pare) — фреймворк для создания и оценки активных агентов в цифровых средах. Pare моделирует приложения как конечные автоматы с состоятельной навигацией и пространством действий, зависящим от состояния, для симулятора пользователя, что позволяет осуществлять активное моделирование пользователя. На этой основе мы представляем Pare-Bench — бенчмарк, включающий 143 разнообразных задачи из сфер коммуникации, продуктивности, планирования и повседневных приложений, предназначенный для тестирования наблюдения за контекстом, вывода целей, выбора времени вмешательства и оркестрации мультиприложений.
English
Proactive agents that anticipate user needs and autonomously execute tasks hold great promise as digital assistants, yet the lack of realistic user simulation frameworks hinders their development. Existing approaches model apps as flat tool-calling APIs, failing to capture the stateful and sequential nature of user interaction in digital environments and making realistic user simulation infeasible. We introduce Proactive Agent Research Environment (Pare), a framework for building and evaluating proactive agents in digital environments. Pare models applications as finite state machines with stateful navigation and state-dependent action space for the user simulator, enabling active user simulation. Building on this foundation, we present Pare-Bench, a benchmark of 143 diverse tasks spanning communication, productivity, scheduling, and lifestyle apps, designed to test context observation, goal inference, intervention timing, and multi-app orchestration.