Waar ging het mis? Procesniveau-evaluatie van webagenten met semantische toestandstracking

Samenvatting

Webagenten handelen in lange interactiesequenties, maar bestaande benchmarks evalueren alleen het uiteindelijke succes, negeren alle procesinformatie en bieden weinig richtlijnen voor verbetering. In dit werk voeren we een analyse op procesniveau van webagenten uit. We introduceren WebStep, een benchmark met 1.800 taakinstanties met gecontroleerde moeilijkheidsgraad en automatische semantische toestandsregistratie. Elke website stelt een deterministische semantische MDP bloot naast de GUI: de agent bedient de interface, terwijl de omgeving op de achtergrond de toestanden en overgangen op hoog niveau vastlegt, wat fijnmazige analyse mogelijk maakt zonder handmatige annotatie. Op basis van het semantische traject tonen we eerst aan dat procesmetingen verschillen onthullen die onzichtbaar zijn voor uitkomstevaluatie: drie agenten waarvan de succespercentages binnen 31-33% liggen, verschillen in verrijkingsbereik versus uitvoeringsnauwkeurigheid. Vervolgens karakteriseert decompositie per vaardigheid de aard van deze verschillen, waarbij tegengestelde rankings per vaardigheid binnen dezelfde website naar voren komen: bijvoorbeeld op Housing presteert OpenAI CUA 23,7% beter dan Qwen3.5 bij commit-acties, maar 15,6% slechter bij filteren, wat een concrete te verbeteren vaardigheid aanwijst, zelfs binnen een domein. Bifurcatieanalyse lokaliseert verder de beslissende fout die de taak verloren doet gaan en toont aan dat deze fout agentspecifiek is in plaats van gedeeld. Ten slotte worden deze verschillen groter naarmate taken moeilijker worden: het succespercentage is vergelijkbaar bij eenvoudige taken, maar scheidt scherp naarmate verkenning veeleisender wordt. Onze analyse op procesniveau opent een nieuwe weg in de evaluatie van webagenten en biedt fijnmazig en bruikbaar inzicht in waar en hoe elke agent verbeterd zou moeten worden.

English

Web agents act through long interaction sequences, yet existing benchmarks evaluate only terminal success, discarding all process information and offering little guidance on improvement. In this work, we conduct a process-level analysis of web agents. We introduce WebStep, a benchmark of 1,800 task instances with controlled difficulty and automatic semantic state tracking. Each website exposes a deterministic semantic MDP alongside the GUI: the agent operates on the interface, while the environment records high-level states and transitions in the background, enabling fine-grained analysis without manual annotation. Based on the semantic trajectory, we first show that process metrics reveal differences invisible to outcome evaluation: three agents whose success rates cluster within 31-33% diverge in exploration reach versus execution accuracy. Then, decomposing by skill characterizes the nature of these differences, exposing opposite per-skill rankings hidden within the same website: e.g., on Housing, OpenAI CUA outperforms Qwen3.5 by 23.7% on commit actions yet underperforms it by 15.6% on filtering, pinpointing a concrete skill to improve even within a domain. Bifurcation analysis further localizes the decisive error that loses the task and shows that this error is agent-specific rather than shared. Finally, these differences widen as tasks grow harder: success rate is similar on easy tasks but separates sharply as exploration becomes more demanding. Our process-level analysis opens a new avenue in web agent evaluation, providing fine-grained and actionable insight into where and how each agent should be improved.