Environnement de Recherche sur les Agents Proactifs : Simulation d'Utilisateurs Actifs pour Évaluer les Assistants Proactifs

Résumé

Les agents proactifs qui anticipent les besoins des utilisateurs et exécutent des tâches de manière autonome constituent des assistants numériques très prometteurs, mais l'absence de cadres de simulation réalistes des utilisateurs entrave leur développement. Les approches existantes modélisent les applications comme des API plates d'appel de fonctions, ne parvenant pas à capturer la nature séquentielle et avec état des interactions utilisateur dans les environnements numériques, ce qui rend la simulation réaliste des utilisateurs impossible. Nous présentons Proactive Agent Research Environment (Pare), un cadre pour construire et évaluer des agents proactifs dans des environnements numériques. Pare modélise les applications comme des machines à états finis avec une navigation avec état et un espace d'actions dépendant de l'état pour le simulateur d'utilisateur, permettant une simulation active de l'utilisateur. Sur cette base, nous présentons Pare-Bench, un benchmark de 143 tâches variées couvrant les applications de communication, de productivité, de planification et de style de vie, conçu pour tester l'observation du contexte, l'inférence des objectifs, le timing des interventions et l'orchestration multi-applications.

English

Proactive agents that anticipate user needs and autonomously execute tasks hold great promise as digital assistants, yet the lack of realistic user simulation frameworks hinders their development. Existing approaches model apps as flat tool-calling APIs, failing to capture the stateful and sequential nature of user interaction in digital environments and making realistic user simulation infeasible. We introduce Proactive Agent Research Environment (Pare), a framework for building and evaluating proactive agents in digital environments. Pare models applications as finite state machines with stateful navigation and state-dependent action space for the user simulator, enabling active user simulation. Building on this foundation, we present Pare-Bench, a benchmark of 143 diverse tasks spanning communication, productivity, scheduling, and lifestyle apps, designed to test context observation, goal inference, intervention timing, and multi-app orchestration.

Environnement de Recherche sur les Agents Proactifs : Simulation d'Utilisateurs Actifs pour Évaluer les Assistants Proactifs

Proactive Agent Research Environment: Simulating Active Users to Evaluate Proactive Assistants

Résumé

Support