WebArbiter: Webエージェント向け原理誘導型推論プロセス報酬モデル
WebArbiter: A Principle-Guided Reasoning Process Reward Model for Web Agents
January 29, 2026
著者: Yao Zhang, Shijie Tang, Zeyu Li, Zhen Han, Volker Tresp
cs.AI
要旨
Webエージェントは複雑なコンピュータタスクの自動化において大きな可能性を秘めているが、その相互作用は、不可逆的なアクションを伴う長期的で連続的な意思決定を含む。このような設定では、結果に基づく監督は疎で遅延し、誤った軌道を報いたり、推論時のスケーリングを支援できなかったりすることが多い。これが、Webナビゲーションにおけるプロセス報酬モデル(WebPRM)の使用を動機付けているが、既存のアプローチには限界がある:スカラー型WebPRMは進捗を大まかで弱く根拠付けられた信号に圧縮し、チェックリスト型WebPRMはレイアウトや意味の変化に弱い脆いテンプレートマッチングに依存し、表面的に正しいアクションを成功と誤ラベル付けすることが多く、洞察や解釈可能性をほとんど提供しない。これらの課題に対処するため、我々はWebArbiterを提案する。これは、推論を優先し、原理を誘導するWebPRMであり、報酬モデリングをテキスト生成として定式化し、選好判断で結論づけられ、現在のコンテキスト下でタスク完了に最も寄与するアクションを特定する構造化された理由付けを生成する。訓練は2段階のパイプラインで行う:推論蒸留によりモデルに首尾一貫した原理駆動推論を習得させ、強化学習により教師のバイアスを判断を正しさに直接合わせて補正し、より強力な一般化を可能にする。体系的な評価を支援するため、4つの多様なWeb環境、豊富なタスク、高品質な選好アノテーションを含む総合的なベンチマークWebPRMBenchを公開した。WebPRMBenchにおいて、WebArbiter-7Bは最強のベースラインであるGPT-5を9.1ポイント上回った。WebArena-Liteでの報酬誘導軌道探索では、従来の最良のWebPRMを最大7.2ポイント上回り、実世界の複雑なWebタスクにおけるその堅牢性と実用的価値を強調している。
English
Web agents hold great potential for automating complex computer tasks, yet their interactions involve long-horizon, sequential decision-making with irreversible actions. In such settings, outcome-based supervision is sparse and delayed, often rewarding incorrect trajectories and failing to support inference-time scaling. This motivates the use of Process Reward Models (WebPRMs) for web navigation, but existing approaches remain limited: scalar WebPRMs collapse progress into coarse, weakly grounded signals, while checklist-based WebPRMs rely on brittle template matching that fails under layout or semantic changes and often mislabels superficially correct actions as successful, providing little insight or interpretability. To address these challenges, we introduce WebArbiter, a reasoning-first, principle-inducing WebPRM that formulates reward modeling as text generation, producing structured justifications that conclude with a preference verdict and identify the action most conducive to task completion under the current context. Training follows a two-stage pipeline: reasoning distillation equips the model with coherent principle-guided reasoning, and reinforcement learning corrects teacher biases by directly aligning verdicts with correctness, enabling stronger generalization. To support systematic evaluation, we release WebPRMBench, a comprehensive benchmark spanning four diverse web environments with rich tasks and high-quality preference annotations. On WebPRMBench, WebArbiter-7B outperforms the strongest baseline, GPT-5, by 9.1 points. In reward-guided trajectory search on WebArena-Lite, it surpasses the best prior WebPRM by up to 7.2 points, underscoring its robustness and practical value in real-world complex web tasks.