Ambiente de Investigação de Agentes Proativos: Simulação de Utilizadores Ativos para Avaliação de Assistentes Proativos

Resumo

Agentes proativos que antecipam as necessidades dos utilizadores e executam tarefas de forma autónoma são assistentes digitais com grande potencial, mas a falta de estruturas realistas de simulação de utilizadores dificulta o seu desenvolvimento. As abordagens existentes modelam as aplicações como APIs planas de chamada de ferramentas, não captando a natureza com estado e sequencial da interação do utilizador em ambientes digitais, tornando inviável uma simulação realista do utilizador. Apresentamos o Proactive Agent Research Environment (Pare), uma estrutura para construir e avaliar agentes proativos em ambientes digitais. O Pare modela aplicações como máquinas de estados finitos com navegação com estado e espaço de ação dependente do estado para o simulador de utilizador, permitindo uma simulação ativa do utilizador. Com base nesta fundação, apresentamos o Pare-Bench, um benchmark com 143 tarefas diversificadas abrangendo aplicações de comunicação, produtividade, agendamento e estilo de vida, concebido para testar a observação de contexto, inferência de objetivos, timing de intervenção e orquestração multi-aplicação.

English

Proactive agents that anticipate user needs and autonomously execute tasks hold great promise as digital assistants, yet the lack of realistic user simulation frameworks hinders their development. Existing approaches model apps as flat tool-calling APIs, failing to capture the stateful and sequential nature of user interaction in digital environments and making realistic user simulation infeasible. We introduce Proactive Agent Research Environment (Pare), a framework for building and evaluating proactive agents in digital environments. Pare models applications as finite state machines with stateful navigation and state-dependent action space for the user simulator, enabling active user simulation. Building on this foundation, we present Pare-Bench, a benchmark of 143 diverse tasks spanning communication, productivity, scheduling, and lifestyle apps, designed to test context observation, goal inference, intervention timing, and multi-app orchestration.