WebArbiter : Un modèle de récompense par processus de raisonnement guidé par des principes pour agents web
WebArbiter: A Principle-Guided Reasoning Process Reward Model for Web Agents
January 29, 2026
papers.authors: Yao Zhang, Shijie Tang, Zeyu Li, Zhen Han, Volker Tresp
cs.AI
papers.abstract
Les agents web présentent un potentiel considérable pour automatiser des tâches informatiques complexes, mais leurs interactions impliquent une prise de décision séquentielle à long terme avec des actions irréversibles. Dans de tels contextes, la supervision basée sur les résultats est parcimonieuse et retardée, récompensant souvent des trajectoires incorrectes et échouant à soutenir la mise à l'échelle lors de l'inférence. Cela motive l'utilisation de modèles de récompense de processus (WebPRMs) pour la navigation web, mais les approches existantes restent limitées : les WebPRMs scalaires réduisent le progrès à des signaux grossiers et faiblement fondés, tandis que les WebPRMs basés sur des listes de contrôle reposent sur un appariement de modèles fragile qui échoue face à des changements de mise en page ou sémantiques, étiquetant souvent des actions superficiellement correctes comme réussies, offrant ainsi peu de perspicacité ou d'interprétabilité. Pour relever ces défis, nous présentons WebArbiter, un WebPRM axé sur le raisonnement et inducteur de principes, qui formule la modélisation de la récompense comme une génération de texte, produisant des justifications structurées concluant par un verdict de préférence et identifiant l'action la plus propice à l'accomplissement de la tâche dans le contexte actuel. L'entraînement suit un pipeline en deux étapes : la distillation du raisonnement dote le modèle d'un raisonnement cohérent guidé par des principes, et l'apprentissage par renforcement corrige les biais de l'enseignant en alignant directement les verdicts sur la justesse, permettant une généralisation plus forte. Pour soutenir une évaluation systématique, nous publions WebPRMBench, un benchmark complet couvrant quatre environnements web diversifiés avec des tâches riches et des annotations de préférence de haute qualité. Sur WebPRMBench, WebArbiter-7B surpasse le plus solide des modèles de référence, GPT-5, de 9,1 points. Dans la recherche de trajectoires guidée par les récompenses sur WebArena-Lite, il dépasse le meilleur WebPRM antérieur jusqu'à 7,2 points, soulignant sa robustesse et sa valeur pratique dans des tâches web complexes réelles.
English
Web agents hold great potential for automating complex computer tasks, yet their interactions involve long-horizon, sequential decision-making with irreversible actions. In such settings, outcome-based supervision is sparse and delayed, often rewarding incorrect trajectories and failing to support inference-time scaling. This motivates the use of Process Reward Models (WebPRMs) for web navigation, but existing approaches remain limited: scalar WebPRMs collapse progress into coarse, weakly grounded signals, while checklist-based WebPRMs rely on brittle template matching that fails under layout or semantic changes and often mislabels superficially correct actions as successful, providing little insight or interpretability. To address these challenges, we introduce WebArbiter, a reasoning-first, principle-inducing WebPRM that formulates reward modeling as text generation, producing structured justifications that conclude with a preference verdict and identify the action most conducive to task completion under the current context. Training follows a two-stage pipeline: reasoning distillation equips the model with coherent principle-guided reasoning, and reinforcement learning corrects teacher biases by directly aligning verdicts with correctness, enabling stronger generalization. To support systematic evaluation, we release WebPRMBench, a comprehensive benchmark spanning four diverse web environments with rich tasks and high-quality preference annotations. On WebPRMBench, WebArbiter-7B outperforms the strongest baseline, GPT-5, by 9.1 points. In reward-guided trajectory search on WebArena-Lite, it surpasses the best prior WebPRM by up to 7.2 points, underscoring its robustness and practical value in real-world complex web tasks.