ChatPaper.aiChatPaper

Proactief Agent Onderzoeksomgeving: Simulatie van Actieve Gebruikers om Proactieve Assistenten te Evalueren

Proactive Agent Research Environment: Simulating Active Users to Evaluate Proactive Assistants

April 1, 2026
Auteurs: Deepak Nathani, Cheng Zhang, Chang Huan, Jiaming Shan, Yinfei Yang, Alkesh Patel, Zhe Gan, William Yang Wang, Michael Saxon, Xin Eric Wang
cs.AI

Samenvatting

Proactieve agents die gebruikersbehoeften anticiperen en taken autonoom uitvoeren, zijn veelbelovend als digitale assistenten, maar het gebrek aan realistische gebruikerssimulatiekaders belemmert hun ontwikkeling. Bestaande benaderingen modelleren apps als platte tool-calling API's, waardoor de stateful en sequentiële aard van gebruikersinteractie in digitale omgevingen niet wordt vastgelegd en realistische gebruikerssimulatie onhaalbaar blijft. Wij introduceren Proactive Agent Research Environment (Pare), een raamwerk voor het bouwen en evalueren van proactieve agents in digitale omgevingen. Pare modelleert applicaties als eindige toestandsautomaten met stateful navigatie en een toestandsafhankelijke actieruimte voor de gebruikerssimulator, wat actieve gebruikerssimulatie mogelijk maakt. Op deze basis presenteren we Pare-Bench, een benchmark met 143 uiteenlopende taken op het gebied van communicatie, productiviteit, planning en lifestyle-apps, ontworpen om contextobservatie, doelafleiding, interventietiming en multi-app-orchestratie te testen.
English
Proactive agents that anticipate user needs and autonomously execute tasks hold great promise as digital assistants, yet the lack of realistic user simulation frameworks hinders their development. Existing approaches model apps as flat tool-calling APIs, failing to capture the stateful and sequential nature of user interaction in digital environments and making realistic user simulation infeasible. We introduce Proactive Agent Research Environment (Pare), a framework for building and evaluating proactive agents in digital environments. Pare models applications as finite state machines with stateful navigation and state-dependent action space for the user simulator, enabling active user simulation. Building on this foundation, we present Pare-Bench, a benchmark of 143 diverse tasks spanning communication, productivity, scheduling, and lifestyle apps, designed to test context observation, goal inference, intervention timing, and multi-app orchestration.
PDF51April 3, 2026