Proaktive Agenten-Forschungsumgebung: Simulation aktiver Nutzer zur Bewertung proaktiver Assistenten
Proactive Agent Research Environment: Simulating Active Users to Evaluate Proactive Assistants
April 1, 2026
Autoren: Deepak Nathani, Cheng Zhang, Chang Huan, Jiaming Shan, Yinfei Yang, Alkesh Patel, Zhe Gan, William Yang Wang, Michael Saxon, Xin Eric Wang
cs.AI
Zusammenfassung
Proaktive Agenten, die Nutzerbedürfnisse antizipieren und Aufgaben autonom ausführen, bergen großes Potenzial als digitale Assistenten, doch das Fehlen realistischer Nutzersimulationsframeworks behindert ihre Entwicklung. Bestehende Ansätze modellieren Apps als flache Tool-Calling-APIs, erfassen aber nicht den zustandsbehafteten und sequenziellen Charakter von Nutzerinteraktionen in digitalen Umgebungen, was realistische Nutzersimulation unmöglich macht. Wir stellen Proactive Agent Research Environment (Pare) vor, ein Framework zur Entwicklung und Evaluierung proaktiver Agenten in digitalen Umgebungen. Pare modelliert Anwendungen als endliche Zustandsautomaten mit zustandsbehafteter Navigation und zustandsabhängigem Aktionsraum für den Nutzersimulator, wodurch aktive Nutzersimulation ermöglicht wird. Auf dieser Grundlage präsentieren wir Pare-Bench, einen Benchmark mit 143 vielfältigen Aufgaben aus den Bereichen Kommunikation, Produktivität, Terminplanung und Lifestyle-Apps, der entwickelt wurde, um Kontextbeobachtung, Zielableitung, Interventionszeitpunkt und Multi-App-Orchestrierung zu testen.
English
Proactive agents that anticipate user needs and autonomously execute tasks hold great promise as digital assistants, yet the lack of realistic user simulation frameworks hinders their development. Existing approaches model apps as flat tool-calling APIs, failing to capture the stateful and sequential nature of user interaction in digital environments and making realistic user simulation infeasible. We introduce Proactive Agent Research Environment (Pare), a framework for building and evaluating proactive agents in digital environments. Pare models applications as finite state machines with stateful navigation and state-dependent action space for the user simulator, enabling active user simulation. Building on this foundation, we present Pare-Bench, a benchmark of 143 diverse tasks spanning communication, productivity, scheduling, and lifestyle apps, designed to test context observation, goal inference, intervention timing, and multi-app orchestration.