Где произошла ошибка? Оценка веб-агентов на уровне процессов с отслеживанием семантического состояния

Аннотация

Веб-агенты действуют через длинные последовательности взаимодействий, однако существующие бенчмарки оценивают только конечный успех, отбрасывая всю информацию о процессе и предоставляя мало ориентиров для улучшения. В данной работе мы проводим анализ на уровне процессов для веб-агентов. Мы представляем WebStep — бенчмарк из 1800 экземпляров задач с контролируемой сложностью и автоматическим отслеживанием семантических состояний. Каждый сайт предоставляет детерминированную семантическую MDP наряду с графическим интерфейсом: агент действует в интерфейсе, а среда в фоновом режиме записывает высокоуровневые состояния и переходы, что позволяет проводить детальный анализ без ручной аннотации. На основе семантической траектории мы сначала показываем, что процессные метрики выявляют различия, невидимые при оценке результатов: три агента с показателями успеха в диапазоне 31–33% расходятся в охвате исследования и точности выполнения. Затем декомпозиция по навыкам характеризует природу этих различий, обнажая противоположные ранжирования по навыкам, скрытые внутри одного и того же сайта: например, на Housing OpenAI CUA превосходит Qwen3.5 на 23,7% по действиям фиксации, но уступает ему на 15,6% по фильтрации, указывая на конкретный навык, требующий улучшения даже в рамках одной предметной области. Бифуркационный анализ дополнительно локализует решающую ошибку, которая приводит к потере задачи, и показывает, что эта ошибка специфична для агента, а не является общей. Наконец, эти различия усиливаются по мере усложнения задач: показатель успеха схож на простых задачах, но резко расходится, когда исследование становится более требовательным. Наш анализ на уровне процессов открывает новое направление в оценке веб-агентов, предоставляя детальные и практические выводы о том, где и как следует улучшать каждого агента.

English

Web agents act through long interaction sequences, yet existing benchmarks evaluate only terminal success, discarding all process information and offering little guidance on improvement. In this work, we conduct a process-level analysis of web agents. We introduce WebStep, a benchmark of 1,800 task instances with controlled difficulty and automatic semantic state tracking. Each website exposes a deterministic semantic MDP alongside the GUI: the agent operates on the interface, while the environment records high-level states and transitions in the background, enabling fine-grained analysis without manual annotation. Based on the semantic trajectory, we first show that process metrics reveal differences invisible to outcome evaluation: three agents whose success rates cluster within 31-33% diverge in exploration reach versus execution accuracy. Then, decomposing by skill characterizes the nature of these differences, exposing opposite per-skill rankings hidden within the same website: e.g., on Housing, OpenAI CUA outperforms Qwen3.5 by 23.7% on commit actions yet underperforms it by 15.6% on filtering, pinpointing a concrete skill to improve even within a domain. Bifurcation analysis further localizes the decisive error that loses the task and shows that this error is agent-specific rather than shared. Finally, these differences widen as tasks grow harder: success rate is similar on easy tasks but separates sharply as exploration becomes more demanding. Our process-level analysis opens a new avenue in web agent evaluation, providing fine-grained and actionable insight into where and how each agent should be improved.