ChatPaper.aiChatPaper

WebArbiter: Un Modelo de Recompensa Basado en Procesos de Razonamiento Guiados por Principios para Agentes Web

WebArbiter: A Principle-Guided Reasoning Process Reward Model for Web Agents

January 29, 2026
Autores: Yao Zhang, Shijie Tang, Zeyu Li, Zhen Han, Volker Tresp
cs.AI

Resumen

Los agentes web tienen un gran potencial para automatizar tareas informáticas complejas, pero sus interacciones implican una toma de decisiones secuencial de largo horizonte con acciones irreversibles. En tales entornos, la supervisión basada en resultados es escasa y tardía, a menudo recompensa trayectorias incorrectas y no logra respaldar la escalabilidad en tiempo de inferencia. Esto motiva el uso de Modelos de Recompensa de Proceso (WebPRMs) para la navegación web, pero los enfoques existentes siguen siendo limitados: los WebPRMs escalares colapsan el progreso en señales burdas y débilmente fundamentadas, mientras que los WebPRMs basados en listas de verificación dependen de una coincidencia de plantillas frágil que falla ante cambios de diseño o semánticos y a menudo etiquetan erróneamente acciones superficialmente correctas como exitosas, proporcionando poca comprensión o interpretabilidad. Para abordar estos desafíos, presentamos WebArbiter, un WebPRM que prioriza el razonamiento e induce principios, que formula el modelado de recompensas como generación de texto, produciendo justificaciones estructuradas que concluyen con un veredicto de preferencia e identifican la acción más conducente para completar la tarea en el contexto actual. El entrenamiento sigue un pipeline de dos etapas: la destilación de razonamiento dota al modelo de un razonamiento coherente guiado por principios, y el aprendizaje por refuerzo corrige los sesgos del profesor alineando directamente los veredictos con la corrección, permitiendo una generalización más sólida. Para apoyar una evaluación sistemática, publicamos WebPRMBench, un benchmark integral que abarca cuatro entornos web diversos con tareas ricas y anotaciones de preferencia de alta calidad. En WebPRMBench, WebArbiter-7B supera al baseline más fuerte, GPT-5, por 9.1 puntos. En la búsqueda de trayectorias guiada por recompensas en WebArena-Lite, supera al mejor WebPRM anterior hasta por 7.2 puntos, subrayando su robustez y valor práctico en tareas web complejas del mundo real.
English
Web agents hold great potential for automating complex computer tasks, yet their interactions involve long-horizon, sequential decision-making with irreversible actions. In such settings, outcome-based supervision is sparse and delayed, often rewarding incorrect trajectories and failing to support inference-time scaling. This motivates the use of Process Reward Models (WebPRMs) for web navigation, but existing approaches remain limited: scalar WebPRMs collapse progress into coarse, weakly grounded signals, while checklist-based WebPRMs rely on brittle template matching that fails under layout or semantic changes and often mislabels superficially correct actions as successful, providing little insight or interpretability. To address these challenges, we introduce WebArbiter, a reasoning-first, principle-inducing WebPRM that formulates reward modeling as text generation, producing structured justifications that conclude with a preference verdict and identify the action most conducive to task completion under the current context. Training follows a two-stage pipeline: reasoning distillation equips the model with coherent principle-guided reasoning, and reinforcement learning corrects teacher biases by directly aligning verdicts with correctness, enabling stronger generalization. To support systematic evaluation, we release WebPRMBench, a comprehensive benchmark spanning four diverse web environments with rich tasks and high-quality preference annotations. On WebPRMBench, WebArbiter-7B outperforms the strongest baseline, GPT-5, by 9.1 points. In reward-guided trajectory search on WebArena-Lite, it surpasses the best prior WebPRM by up to 7.2 points, underscoring its robustness and practical value in real-world complex web tasks.
PDF02January 31, 2026