Web-Shepherd: Avanzando en los PRM para el Refuerzo de Agentes WebWeb-Shepherd: Advancing PRMs for Reinforcing Web Agents
La navegación web es un dominio único que puede automatizar muchas tareas repetitivas de la vida real y es desafiante, ya que requiere la toma de decisiones secuenciales a largo plazo que van más allá de las tareas típicas de los modelos de lenguaje multimodal de gran escala (MLLM, por sus siglas en inglés). Sin embargo, hasta ahora han estado ausentes modelos de recompensa especializados para la navegación web que puedan utilizarse tanto durante el entrenamiento como en el momento de la prueba. A pesar de la importancia de la velocidad y la rentabilidad, trabajos previos han utilizado MLLMs como modelos de recompensa, lo que impone limitaciones significativas para su implementación en el mundo real. Para abordar esto, en este trabajo proponemos el primer modelo de recompensa de proceso (PRM, por sus siglas en inglés) llamado Web-Shepherd, que puede evaluar trayectorias de navegación web a nivel de paso. Para lograrlo, primero construimos la Colección WebPRM, un conjunto de datos a gran escala con 40K pares de preferencias a nivel de paso y listas de verificación anotadas que abarcan diversos dominios y niveles de dificultad. A continuación, también presentamos WebRewardBench, el primer punto de referencia de meta-evaluación para evaluar PRMs. En nuestros experimentos, observamos que nuestro Web-Shepherd logra una precisión aproximadamente 30 puntos mejor en comparación con el uso de GPT-4o en WebRewardBench. Además, al probar en WebArena-lite utilizando GPT-4o-mini como política y Web-Shepherd como verificador, obtenemos un rendimiento 10.9 puntos mejor, con un costo 10 veces menor en comparación con el uso de GPT-4o-mini como verificador. Nuestro modelo, conjunto de datos y código están disponibles públicamente en LINK.