Ambiente di Ricerca sugli Agenti Proattivi: Simulazione di Utenti Attivi per la Valutazione di Assistenti Proattivi

Abstract

Gli agenti proattivi che anticipano le necessità degli utenti ed eseguono compiti in modo autonomo rappresentano una grande promessa come assistenti digitali, ma la mancanza di framework realistici di simulazione utente ne ostacola lo sviluppo. Gli approcci esistenti modellano le applicazioni come API piatte per la chiamata di strumenti, non riuscendo a catturare la natura stateful e sequenziale dell'interazione utente negli ambienti digitali e rendendo impossibile una simulazione utente realistica. Introduciamo Proactive Agent Research Environment (Pare), un framework per costruire e valutare agenti proattivi in ambienti digitali. Pare modella le applicazioni come macchine a stati finiti con navigazione stateful e spazi d'azione dipendenti dallo stato per il simulatore utente, abilitando una simulazione utente attiva. Basandoci su queste fondamenta, presentiamo Pare-Bench, un benchmark di 143 compiti diversificati che abbracciano applicazioni di comunicazione, produttività, pianificazione e stile di vita, progettato per testare l'osservazione del contesto, l'inferenza degli obiettivi, la tempistica degli interventi e l'orchestrazione multi-app.

English

Proactive agents that anticipate user needs and autonomously execute tasks hold great promise as digital assistants, yet the lack of realistic user simulation frameworks hinders their development. Existing approaches model apps as flat tool-calling APIs, failing to capture the stateful and sequential nature of user interaction in digital environments and making realistic user simulation infeasible. We introduce Proactive Agent Research Environment (Pare), a framework for building and evaluating proactive agents in digital environments. Pare models applications as finite state machines with stateful navigation and state-dependent action space for the user simulator, enabling active user simulation. Building on this foundation, we present Pare-Bench, a benchmark of 143 diverse tasks spanning communication, productivity, scheduling, and lifestyle apps, designed to test context observation, goal inference, intervention timing, and multi-app orchestration.

Ambiente di Ricerca sugli Agenti Proattivi: Simulazione di Utenti Attivi per la Valutazione di Assistenti Proattivi

Proactive Agent Research Environment: Simulating Active Users to Evaluate Proactive Assistants

Abstract

Support