Entorno de Investigación de Agentes Proactivos: Simulación de Usuarios Activos para Evaluar Asistentes Proactivos
Proactive Agent Research Environment: Simulating Active Users to Evaluate Proactive Assistants
April 1, 2026
Autores: Deepak Nathani, Cheng Zhang, Chang Huan, Jiaming Shan, Yinfei Yang, Alkesh Patel, Zhe Gan, William Yang Wang, Michael Saxon, Xin Eric Wang
cs.AI
Resumen
Los agentes proactivos que anticipan las necesidades del usuario y ejecutan tareas de forma autónoma son muy prometedores como asistentes digitales, aunque la falta de marcos de simulación de usuarios realistas dificulta su desarrollo. Los enfoques existentes modelan las aplicaciones como APIs planas de llamada a herramientas, sin capturar la naturaleza con estado y secuencial de la interacción del usuario en entornos digitales, lo que hace inviable una simulación realista. Presentamos Proactive Agent Research Environment (Pare), un marco para construir y evaluar agentes proactivos en entornos digitales. Pare modela aplicaciones como máquinas de estado finito con navegación con estado y espacio de acción dependiente del estado para el simulador de usuario, permitiendo una simulación activa. Sobre esta base, presentamos Pare-Bench, un benchmark con 143 tareas diversas que abarcan aplicaciones de comunicación, productividad, planificación y estilo de vida, diseñado para evaluar la observación del contexto, la inferencia de objetivos, la temporalización de intervenciones y la orquestación multi-aplicación.
English
Proactive agents that anticipate user needs and autonomously execute tasks hold great promise as digital assistants, yet the lack of realistic user simulation frameworks hinders their development. Existing approaches model apps as flat tool-calling APIs, failing to capture the stateful and sequential nature of user interaction in digital environments and making realistic user simulation infeasible. We introduce Proactive Agent Research Environment (Pare), a framework for building and evaluating proactive agents in digital environments. Pare models applications as finite state machines with stateful navigation and state-dependent action space for the user simulator, enabling active user simulation. Building on this foundation, we present Pare-Bench, a benchmark of 143 diverse tasks spanning communication, productivity, scheduling, and lifestyle apps, designed to test context observation, goal inference, intervention timing, and multi-app orchestration.