Web-Shepherd: Avanzando en los PRM para el Refuerzo de Agentes Web
Web-Shepherd: Advancing PRMs for Reinforcing Web Agents
May 21, 2025
Autores: Hyungjoo Chae, Sunghwan Kim, Junhee Cho, Seungone Kim, Seungjun Moon, Gyeom Hwangbo, Dongha Lim, Minjin Kim, Yeonjun Hwang, Minju Gwak, Dongwook Choi, Minseok Kang, Gwanhoon Im, ByeongUng Cho, Hyojun Kim, Jun Hee Han, Taeyoon Kwon, Minju Kim, Beong-woo Kwak, Dongjin Kang, Jinyoung Yeo
cs.AI
Resumen
La navegación web es un dominio único que puede automatizar muchas tareas repetitivas de la vida real y es desafiante, ya que requiere la toma de decisiones secuenciales a largo plazo que van más allá de las tareas típicas de los modelos de lenguaje multimodal de gran escala (MLLM, por sus siglas en inglés). Sin embargo, hasta ahora han estado ausentes modelos de recompensa especializados para la navegación web que puedan utilizarse tanto durante el entrenamiento como en el momento de la prueba. A pesar de la importancia de la velocidad y la rentabilidad, trabajos previos han utilizado MLLMs como modelos de recompensa, lo que impone limitaciones significativas para su implementación en el mundo real. Para abordar esto, en este trabajo proponemos el primer modelo de recompensa de proceso (PRM, por sus siglas en inglés) llamado Web-Shepherd, que puede evaluar trayectorias de navegación web a nivel de paso. Para lograrlo, primero construimos la Colección WebPRM, un conjunto de datos a gran escala con 40K pares de preferencias a nivel de paso y listas de verificación anotadas que abarcan diversos dominios y niveles de dificultad. A continuación, también presentamos WebRewardBench, el primer punto de referencia de meta-evaluación para evaluar PRMs. En nuestros experimentos, observamos que nuestro Web-Shepherd logra una precisión aproximadamente 30 puntos mejor en comparación con el uso de GPT-4o en WebRewardBench. Además, al probar en WebArena-lite utilizando GPT-4o-mini como política y Web-Shepherd como verificador, obtenemos un rendimiento 10.9 puntos mejor, con un costo 10 veces menor en comparación con el uso de GPT-4o-mini como verificador. Nuestro modelo, conjunto de datos y código están disponibles públicamente en LINK.
English
Web navigation is a unique domain that can automate many repetitive real-life
tasks and is challenging as it requires long-horizon sequential decision making
beyond typical multimodal large language model (MLLM) tasks. Yet, specialized
reward models for web navigation that can be utilized during both training and
test-time have been absent until now. Despite the importance of speed and
cost-effectiveness, prior works have utilized MLLMs as reward models, which
poses significant constraints for real-world deployment. To address this, in
this work, we propose the first process reward model (PRM) called Web-Shepherd
which could assess web navigation trajectories in a step-level. To achieve
this, we first construct the WebPRM Collection, a large-scale dataset with 40K
step-level preference pairs and annotated checklists spanning diverse domains
and difficulty levels. Next, we also introduce the WebRewardBench, the first
meta-evaluation benchmark for evaluating PRMs. In our experiments, we observe
that our Web-Shepherd achieves about 30 points better accuracy compared to
using GPT-4o on WebRewardBench. Furthermore, when testing on WebArena-lite by
using GPT-4o-mini as the policy and Web-Shepherd as the verifier, we achieve
10.9 points better performance, in 10 less cost compared to using GPT-4o-mini
as the verifier. Our model, dataset, and code are publicly available at LINK.Summary
AI-Generated Summary