Onde Deu Errado? Avaliação em Nível de Processo de Agentes Web com Rastreamento de Estado Semântico

Resumo

Os agentes web atuam por meio de longas sequências de interação, porém os benchmarks existentes avaliam apenas o sucesso terminal, descartando todas as informações processuais e oferecendo pouca orientação para melhoria. Neste trabalho, realizamos uma análise em nível de processo de agentes web. Apresentamos o WebStep, um benchmark composto por 1.800 instâncias de tarefas com dificuldade controlada e rastreamento automático de estado semântico. Cada site expõe um MDP semântico determinístico juntamente com a GUI: o agente opera na interface, enquanto o ambiente registra estados e transições de alto nível em segundo plano, permitindo uma análise refinada sem anotação manual. Com base na trajetória semântica, mostramos primeiro que métricas de processo revelam diferenças invisíveis à avaliação de resultados: três agentes cujas taxas de sucesso se agrupam entre 31-33% divergem em alcance de exploração versus precisão de execução. Em seguida, a decomposição por habilidade caracteriza a natureza dessas diferenças, expondo rankings opostos por habilidade ocultos no mesmo site: por exemplo, no Housing, o OpenAI CUA supera o Qwen3.5 em 23,7% em ações de commit, mas fica 15,6% abaixo em filtragem, identificando uma habilidade concreta a ser melhorada mesmo dentro de um domínio. A análise de bifurcação localiza ainda o erro decisivo que leva à perda da tarefa e mostra que esse erro é específico do agente, não compartilhado. Por fim, essas diferenças se ampliam à medida que as tarefas se tornam mais difíceis: a taxa de sucesso é semelhante em tarefas fáceis, mas se separa nitidamente quando a exploração se torna mais exigente. Nossa análise em nível de processo abre um novo caminho na avaliação de agentes web, fornecendo insights refinados e acionáveis sobre onde e como cada agente deve ser melhorado.

English

Web agents act through long interaction sequences, yet existing benchmarks evaluate only terminal success, discarding all process information and offering little guidance on improvement. In this work, we conduct a process-level analysis of web agents. We introduce WebStep, a benchmark of 1,800 task instances with controlled difficulty and automatic semantic state tracking. Each website exposes a deterministic semantic MDP alongside the GUI: the agent operates on the interface, while the environment records high-level states and transitions in the background, enabling fine-grained analysis without manual annotation. Based on the semantic trajectory, we first show that process metrics reveal differences invisible to outcome evaluation: three agents whose success rates cluster within 31-33% diverge in exploration reach versus execution accuracy. Then, decomposing by skill characterizes the nature of these differences, exposing opposite per-skill rankings hidden within the same website: e.g., on Housing, OpenAI CUA outperforms Qwen3.5 by 23.7% on commit actions yet underperforms it by 15.6% on filtering, pinpointing a concrete skill to improve even within a domain. Bifurcation analysis further localizes the decisive error that loses the task and shows that this error is agent-specific rather than shared. Finally, these differences widen as tasks grow harder: success rate is similar on easy tasks but separates sharply as exploration becomes more demanding. Our process-level analysis opens a new avenue in web agent evaluation, providing fine-grained and actionable insight into where and how each agent should be improved.