Web-Shepherd: PRMを進化させたWebエージェント強化フレームワーク
Web-Shepherd: Advancing PRMs for Reinforcing Web Agents
May 21, 2025
著者: Hyungjoo Chae, Sunghwan Kim, Junhee Cho, Seungone Kim, Seungjun Moon, Gyeom Hwangbo, Dongha Lim, Minjin Kim, Yeonjun Hwang, Minju Gwak, Dongwook Choi, Minseok Kang, Gwanhoon Im, ByeongUng Cho, Hyojun Kim, Jun Hee Han, Taeyoon Kwon, Minju Kim, Beong-woo Kwak, Dongjin Kang, Jinyoung Yeo
cs.AI
要旨
ウェブナビゲーションは、多くの反復的な現実世界のタスクを自動化できる独特な領域であり、典型的なマルチモーダル大規模言語モデル(MLLM)タスクを超えた長期的な逐次意思決定を必要とするため、挑戦的です。しかし、これまで、トレーニング時とテスト時の両方で利用可能な、ウェブナビゲーション専用の報酬モデルは存在しませんでした。速度とコスト効率の重要性にもかかわらず、これまでの研究ではMLLMを報酬モデルとして使用しており、実世界での展開に大きな制約をもたらしていました。これを解決するため、本研究では、ウェブナビゲーションの軌跡をステップレベルで評価できる初のプロセス報酬モデル(PRM)である「Web-Shepherd」を提案します。これを実現するために、まず、多様なドメインと難易度にわたる40Kのステップレベルの選好ペアと注釈付きチェックリストを含む大規模データセット「WebPRM Collection」を構築しました。次に、PRMを評価するための初のメタ評価ベンチマーク「WebRewardBench」も導入しました。実験では、Web-ShepherdがWebRewardBenchにおいてGPT-4oを使用した場合と比較して約30ポイント高い精度を達成することを確認しました。さらに、GPT-4o-miniをポリシーとして、Web-Shepherdを検証器として使用してWebArena-liteでテストした場合、GPT-4o-miniを検証器として使用した場合と比較して10.9ポイント高いパフォーマンスを、10分の1のコストで達成しました。私たちのモデル、データセット、コードはLINKで公開されています。
English
Web navigation is a unique domain that can automate many repetitive real-life
tasks and is challenging as it requires long-horizon sequential decision making
beyond typical multimodal large language model (MLLM) tasks. Yet, specialized
reward models for web navigation that can be utilized during both training and
test-time have been absent until now. Despite the importance of speed and
cost-effectiveness, prior works have utilized MLLMs as reward models, which
poses significant constraints for real-world deployment. To address this, in
this work, we propose the first process reward model (PRM) called Web-Shepherd
which could assess web navigation trajectories in a step-level. To achieve
this, we first construct the WebPRM Collection, a large-scale dataset with 40K
step-level preference pairs and annotated checklists spanning diverse domains
and difficulty levels. Next, we also introduce the WebRewardBench, the first
meta-evaluation benchmark for evaluating PRMs. In our experiments, we observe
that our Web-Shepherd achieves about 30 points better accuracy compared to
using GPT-4o on WebRewardBench. Furthermore, when testing on WebArena-lite by
using GPT-4o-mini as the policy and Web-Shepherd as the verifier, we achieve
10.9 points better performance, in 10 less cost compared to using GPT-4o-mini
as the verifier. Our model, dataset, and code are publicly available at LINK.Summary
AI-Generated Summary