WebArbiter: Ein prinzipiengeleitetes Reasoning-Prozess-Belohnungsmodell für Web-Agenten
WebArbiter: A Principle-Guided Reasoning Process Reward Model for Web Agents
January 29, 2026
papers.authors: Yao Zhang, Shijie Tang, Zeyu Li, Zhen Han, Volker Tresp
cs.AI
papers.abstract
Web-Agenten bergen großes Potenzial für die Automatisierung komplexer Computeraufgaben, doch ihre Interaktionen beinhalten langfristige, sequenzielle Entscheidungsfindung mit irreversiblen Aktionen. In solchen Settings ist die auf Ergebnisse basierende Steuerung spärlich und verzögert, belohnt oft falsche Trajektorien und unterstützt Skalierung zur Inferenzzeit nicht. Dies motiviert den Einsatz von Process Reward Models (WebPRMs) für die Web-Navigation, doch bestehende Ansätze bleiben begrenzt: Skalare WebPRMs reduzieren Fortschritt auf grobe, schwach fundierte Signale, während checklistenbasierte WebPRMs auf anfälliger Template-Matching angewiesen sind, die bei Layout- oder semantischen Änderungen versagt und oft oberflächlich korrekte Aktionen fälschlich als erfolgreich kennzeichnet, was wenig Einsicht oder Interpretierbarkeit bietet. Um diese Herausforderungen zu adressieren, führen wir WebArbiter ein, ein reasoning-first, principle-inducing WebPRM, das Belohnungsmodellierung als Textgenerierung formuliert und strukturierte Begründungen erzeugt, die mit einem Präferenzurteil enden und die Aktion identifizieren, die unter dem aktuellen Kontext am meisten zur Aufgabenerfüllung beiträgt. Das Training folgt einer Zwei-Stufen-Pipeline: Reasoning Distillation stattet das Modell mit kohärentem, prinzipiengeleitetem Denken aus, und Reinforcement Learning korrigiert Lehrer-Bias durch direkte Ausrichtung der Urteile an Korrektheit, was stärkere Generalisierung ermöglicht. Zur systematischen Evaluation veröffentlichen wir WebPRMBench, einen umfassenden Benchmark über vier diverse Web-Umgebungen mit reichhaltigen Aufgaben und hochwertigen Präferenzannotationen. Auf WebPRMBench übertrifft WebArbiter-7B den stärksten Baseline, GPT-5, um 9,1 Punkte. Bei belohnungsgeführter Trajektoriensuche auf WebArena-Lite übertrifft es das beste bisherige WebPRM um bis zu 7,2 Punkte, was seine Robustheit und praktischen Wert bei komplexen realen Webaufgaben unterstreicht.
English
Web agents hold great potential for automating complex computer tasks, yet their interactions involve long-horizon, sequential decision-making with irreversible actions. In such settings, outcome-based supervision is sparse and delayed, often rewarding incorrect trajectories and failing to support inference-time scaling. This motivates the use of Process Reward Models (WebPRMs) for web navigation, but existing approaches remain limited: scalar WebPRMs collapse progress into coarse, weakly grounded signals, while checklist-based WebPRMs rely on brittle template matching that fails under layout or semantic changes and often mislabels superficially correct actions as successful, providing little insight or interpretability. To address these challenges, we introduce WebArbiter, a reasoning-first, principle-inducing WebPRM that formulates reward modeling as text generation, producing structured justifications that conclude with a preference verdict and identify the action most conducive to task completion under the current context. Training follows a two-stage pipeline: reasoning distillation equips the model with coherent principle-guided reasoning, and reinforcement learning corrects teacher biases by directly aligning verdicts with correctness, enabling stronger generalization. To support systematic evaluation, we release WebPRMBench, a comprehensive benchmark spanning four diverse web environments with rich tasks and high-quality preference annotations. On WebPRMBench, WebArbiter-7B outperforms the strongest baseline, GPT-5, by 9.1 points. In reward-guided trajectory search on WebArena-Lite, it surpasses the best prior WebPRM by up to 7.2 points, underscoring its robustness and practical value in real-world complex web tasks.