¿Dónde falló? Evaluación a nivel de proceso de agentes web con seguimiento de estado semántico

Resumen

Los agentes web actúan a través de secuencias largas de interacción, sin embargo, los benchmarks existentes evalúan solo el éxito terminal, descartando toda la información del proceso y ofreciendo poca guía para la mejora. En este trabajo, realizamos un análisis a nivel de proceso de los agentes web. Presentamos WebStep, un benchmark de 1,800 instancias de tareas con dificultad controlada y seguimiento automático del estado semántico. Cada sitio web expone un MDP semántico determinista junto con la GUI: el agente opera en la interfaz, mientras que el entorno registra estados y transiciones de alto nivel en segundo plano, lo que permite un análisis detallado sin anotaciones manuales. Basándonos en la trayectoria semántica, primero mostramos que las métricas de proceso revelan diferencias invisibles para la evaluación de resultados: tres agentes cuyas tasas de éxito se agrupan entre el 31-33% divergen en alcance de exploración frente a precisión de ejecución. Luego, descomponiendo por habilidad se caracteriza la naturaleza de estas diferencias, exponiendo clasificaciones por habilidad opuestas ocultas dentro del mismo sitio web: por ejemplo, en Housing, OpenAI CUA supera a Qwen3.5 en un 23.7% en acciones de commit, pero rinde un 15.6% menos en filtrado, señalando una habilidad concreta para mejorar incluso dentro de un dominio. El análisis de bifurcación localiza además el error decisivo que hace perder la tarea y muestra que este error es específico del agente, no compartido. Finalmente, estas diferencias se amplían a medida que las tareas se vuelven más difíciles: la tasa de éxito es similar en tareas fáciles, pero se separa marcadamente a medida que la exploración se vuelve más exigente. Nuestro análisis a nivel de proceso abre una nueva vía en la evaluación de agentes web, proporcionando información detallada y procesable sobre dónde y cómo se debe mejorar cada agente.

English

Web agents act through long interaction sequences, yet existing benchmarks evaluate only terminal success, discarding all process information and offering little guidance on improvement. In this work, we conduct a process-level analysis of web agents. We introduce WebStep, a benchmark of 1,800 task instances with controlled difficulty and automatic semantic state tracking. Each website exposes a deterministic semantic MDP alongside the GUI: the agent operates on the interface, while the environment records high-level states and transitions in the background, enabling fine-grained analysis without manual annotation. Based on the semantic trajectory, we first show that process metrics reveal differences invisible to outcome evaluation: three agents whose success rates cluster within 31-33% diverge in exploration reach versus execution accuracy. Then, decomposing by skill characterizes the nature of these differences, exposing opposite per-skill rankings hidden within the same website: e.g., on Housing, OpenAI CUA outperforms Qwen3.5 by 23.7% on commit actions yet underperforms it by 15.6% on filtering, pinpointing a concrete skill to improve even within a domain. Bifurcation analysis further localizes the decisive error that loses the task and shows that this error is agent-specific rather than shared. Finally, these differences widen as tasks grow harder: success rate is similar on easy tasks but separates sharply as exploration becomes more demanding. Our process-level analysis opens a new avenue in web agent evaluation, providing fine-grained and actionable insight into where and how each agent should be improved.