Wo ist es schiefgelaufen? Prozessebenenbewertung von Web-Agenten mit semantischer Zustandsverfolgung

Zusammenfassung

Web-Agenten agieren über lange Interaktionssequenzen, dennoch bewerten bestehende Benchmarks lediglich den letztendlichen Erfolg, verwerfen sämtliche Prozessinformationen und bieten wenig Anleitung zur Verbesserung. In dieser Arbeit führen wir eine Prozessanalyse auf Handlungsebene von Web-Agenten durch. Wir stellen WebStep vor, einen Benchmark mit 1.800 Aufgabeninstanzen mit kontrolliertem Schwierigkeitsgrad und automatischer semantischer Zustandsverfolgung. Jede Website legt neben der grafischen Benutzeroberfläche ein deterministisches semantisches MDP offen: Der Agent operiert auf der Schnittstelle, während die Umgebung im Hintergrund hochrangige Zustände und Übergänge aufzeichnet, was eine detaillierte Analyse ohne manuelle Annotation ermöglicht. Basierend auf der semantischen Trajektorie zeigen wir zunächst, dass Prozessmetriken Unterschiede offenbaren, die bei der Ergebnisbewertung unsichtbar bleiben: Drei Agenten, deren Erfolgsraten zwischen 31-33% liegen, unterscheiden sich in der Reichweite der Erkundung versus der Ausführungsgenauigkeit. Anschließend charakterisiert eine Zerlegung nach Fähigkeiten die Art dieser Unterschiede und legt gegensätzliche fähigkeitsspezifische Rangfolgen offen, die innerhalb derselben Website verborgen sind: Z. B. übertrifft OpenAI CUA auf Housing Qwen3.5 um 23,7% bei Commit-Aktionen, bleibt aber um 15,6% beim Filtern dahinter zurück, was eine konkrete zu verbessernde Fähigkeit sogar innerhalb einer Domäne identifiziert. Die Bifurkationsanalyse lokalisiert weiterhin den entscheidenden Fehler, der die Aufgabe scheitern lässt, und zeigt, dass dieser Fehler agentenspezifisch und nicht gemeinsam ist. Schließlich vergrößern sich diese Unterschiede mit zunehmendem Aufgabenschwierigkeitsgrad: Die Erfolgsrate ähnelt sich bei einfachen Aufgaben, trennt sich jedoch deutlich, wenn die Erkundung anspruchsvoller wird. Unsere Prozessanalyse eröffnet einen neuen Weg in der Bewertung von Web-Agenten und liefert detaillierte, umsetzbare Einblicke, wo und wie jeder Agent verbessert werden sollte.

English

Web agents act through long interaction sequences, yet existing benchmarks evaluate only terminal success, discarding all process information and offering little guidance on improvement. In this work, we conduct a process-level analysis of web agents. We introduce WebStep, a benchmark of 1,800 task instances with controlled difficulty and automatic semantic state tracking. Each website exposes a deterministic semantic MDP alongside the GUI: the agent operates on the interface, while the environment records high-level states and transitions in the background, enabling fine-grained analysis without manual annotation. Based on the semantic trajectory, we first show that process metrics reveal differences invisible to outcome evaluation: three agents whose success rates cluster within 31-33% diverge in exploration reach versus execution accuracy. Then, decomposing by skill characterizes the nature of these differences, exposing opposite per-skill rankings hidden within the same website: e.g., on Housing, OpenAI CUA outperforms Qwen3.5 by 23.7% on commit actions yet underperforms it by 15.6% on filtering, pinpointing a concrete skill to improve even within a domain. Bifurcation analysis further localizes the decisive error that loses the task and shows that this error is agent-specific rather than shared. Finally, these differences widen as tasks grow harder: success rate is similar on easy tasks but separates sharply as exploration becomes more demanding. Our process-level analysis opens a new avenue in web agent evaluation, providing fine-grained and actionable insight into where and how each agent should be improved.