Où cela a-t-il mal tourné ? Évaluation au niveau des processus des agents Web avec suivi d'état sémantique

Résumé

Les agents web agissent à travers de longues séquences d'interaction, pourtant les benchmarks existants n'évaluent que le succès terminal, écartant toutes les informations de processus et offrant peu de pistes d'amélioration. Dans ce travail, nous menons une analyse au niveau des processus des agents web. Nous introduisons WebStep, un benchmark de 1 800 instances de tâches avec une difficulté contrôlée et un suivi d'état sémantique automatique. Chaque site web expose un MDP sémantique déterministe parallèlement à l'interface graphique : l'agent opère sur l'interface, tandis que l'environnement enregistre les états de haut niveau et les transitions en arrière-plan, permettant une analyse fine sans annotation manuelle. Sur la base de la trajectoire sémantique, nous montrons d'abord que les métriques de processus révèlent des différences invisibles à l'évaluation des résultats : trois agents dont les taux de réussite se situent entre 31 et 33 % divergent en termes de portée d'exploration versus précision d'exécution. Ensuite, une décomposition par compétence caractérise la nature de ces différences, exposant des classements par compétence opposés cachés au sein d'un même site : par exemple, sur Housing, OpenAI CUA surpasse Qwen3.5 de 23,7 % pour les actions de validation tout en lui étant inférieur de 15,6 % pour le filtrage, identifiant ainsi une compétence concrète à améliorer même au sein d'un domaine. L'analyse de bifurcation localise en outre l'erreur décisive qui fait perdre la tâche et montre que cette erreur est propre à l'agent plutôt que partagée. Enfin, ces différences s'accentuent à mesure que les tâches deviennent plus difficiles : le taux de réussite est similaire sur les tâches faciles mais se sépare nettement lorsque l'exploration devient plus exigeante. Notre analyse au niveau des processus ouvre une nouvelle voie dans l'évaluation des agents web, fournissant un aperçu précis et exploitable de là où et comment chaque agent doit être amélioré.

English

Web agents act through long interaction sequences, yet existing benchmarks evaluate only terminal success, discarding all process information and offering little guidance on improvement. In this work, we conduct a process-level analysis of web agents. We introduce WebStep, a benchmark of 1,800 task instances with controlled difficulty and automatic semantic state tracking. Each website exposes a deterministic semantic MDP alongside the GUI: the agent operates on the interface, while the environment records high-level states and transitions in the background, enabling fine-grained analysis without manual annotation. Based on the semantic trajectory, we first show that process metrics reveal differences invisible to outcome evaluation: three agents whose success rates cluster within 31-33% diverge in exploration reach versus execution accuracy. Then, decomposing by skill characterizes the nature of these differences, exposing opposite per-skill rankings hidden within the same website: e.g., on Housing, OpenAI CUA outperforms Qwen3.5 by 23.7% on commit actions yet underperforms it by 15.6% on filtering, pinpointing a concrete skill to improve even within a domain. Bifurcation analysis further localizes the decisive error that loses the task and shows that this error is agent-specific rather than shared. Finally, these differences widen as tasks grow harder: success rate is similar on easy tasks but separates sharply as exploration becomes more demanding. Our process-level analysis opens a new avenue in web agent evaluation, providing fine-grained and actionable insight into where and how each agent should be improved.