ChatPaper.aiChatPaper

Web-Shepherd: Avanzando en los PRM para el Refuerzo de Agentes Web

Web-Shepherd: Advancing PRMs for Reinforcing Web Agents

May 21, 2025
Autores: Hyungjoo Chae, Sunghwan Kim, Junhee Cho, Seungone Kim, Seungjun Moon, Gyeom Hwangbo, Dongha Lim, Minjin Kim, Yeonjun Hwang, Minju Gwak, Dongwook Choi, Minseok Kang, Gwanhoon Im, ByeongUng Cho, Hyojun Kim, Jun Hee Han, Taeyoon Kwon, Minju Kim, Beong-woo Kwak, Dongjin Kang, Jinyoung Yeo
cs.AI

Resumen

La navegación web es un dominio único que puede automatizar muchas tareas repetitivas de la vida real y es desafiante, ya que requiere la toma de decisiones secuenciales a largo plazo que van más allá de las tareas típicas de los modelos de lenguaje multimodal de gran escala (MLLM, por sus siglas en inglés). Sin embargo, hasta ahora han estado ausentes modelos de recompensa especializados para la navegación web que puedan utilizarse tanto durante el entrenamiento como en el momento de la prueba. A pesar de la importancia de la velocidad y la rentabilidad, trabajos previos han utilizado MLLMs como modelos de recompensa, lo que impone limitaciones significativas para su implementación en el mundo real. Para abordar esto, en este trabajo proponemos el primer modelo de recompensa de proceso (PRM, por sus siglas en inglés) llamado Web-Shepherd, que puede evaluar trayectorias de navegación web a nivel de paso. Para lograrlo, primero construimos la Colección WebPRM, un conjunto de datos a gran escala con 40K pares de preferencias a nivel de paso y listas de verificación anotadas que abarcan diversos dominios y niveles de dificultad. A continuación, también presentamos WebRewardBench, el primer punto de referencia de meta-evaluación para evaluar PRMs. En nuestros experimentos, observamos que nuestro Web-Shepherd logra una precisión aproximadamente 30 puntos mejor en comparación con el uso de GPT-4o en WebRewardBench. Además, al probar en WebArena-lite utilizando GPT-4o-mini como política y Web-Shepherd como verificador, obtenemos un rendimiento 10.9 puntos mejor, con un costo 10 veces menor en comparación con el uso de GPT-4o-mini como verificador. Nuestro modelo, conjunto de datos y código están disponibles públicamente en LINK.
English
Web navigation is a unique domain that can automate many repetitive real-life tasks and is challenging as it requires long-horizon sequential decision making beyond typical multimodal large language model (MLLM) tasks. Yet, specialized reward models for web navigation that can be utilized during both training and test-time have been absent until now. Despite the importance of speed and cost-effectiveness, prior works have utilized MLLMs as reward models, which poses significant constraints for real-world deployment. To address this, in this work, we propose the first process reward model (PRM) called Web-Shepherd which could assess web navigation trajectories in a step-level. To achieve this, we first construct the WebPRM Collection, a large-scale dataset with 40K step-level preference pairs and annotated checklists spanning diverse domains and difficulty levels. Next, we also introduce the WebRewardBench, the first meta-evaluation benchmark for evaluating PRMs. In our experiments, we observe that our Web-Shepherd achieves about 30 points better accuracy compared to using GPT-4o on WebRewardBench. Furthermore, when testing on WebArena-lite by using GPT-4o-mini as the policy and Web-Shepherd as the verifier, we achieve 10.9 points better performance, in 10 less cost compared to using GPT-4o-mini as the verifier. Our model, dataset, and code are publicly available at LINK.

Summary

AI-Generated Summary

PDF864May 22, 2025