ChatPaper.aiChatPaper

Web-Shepherd: PRMを進化させたWebエージェント強化フレームワーク

Web-Shepherd: Advancing PRMs for Reinforcing Web Agents

May 21, 2025
著者: Hyungjoo Chae, Sunghwan Kim, Junhee Cho, Seungone Kim, Seungjun Moon, Gyeom Hwangbo, Dongha Lim, Minjin Kim, Yeonjun Hwang, Minju Gwak, Dongwook Choi, Minseok Kang, Gwanhoon Im, ByeongUng Cho, Hyojun Kim, Jun Hee Han, Taeyoon Kwon, Minju Kim, Beong-woo Kwak, Dongjin Kang, Jinyoung Yeo
cs.AI

要旨

ウェブナビゲーションは、多くの反復的な現実世界のタスクを自動化できる独特な領域であり、典型的なマルチモーダル大規模言語モデル(MLLM)タスクを超えた長期的な逐次意思決定を必要とするため、挑戦的です。しかし、これまで、トレーニング時とテスト時の両方で利用可能な、ウェブナビゲーション専用の報酬モデルは存在しませんでした。速度とコスト効率の重要性にもかかわらず、これまでの研究ではMLLMを報酬モデルとして使用しており、実世界での展開に大きな制約をもたらしていました。これを解決するため、本研究では、ウェブナビゲーションの軌跡をステップレベルで評価できる初のプロセス報酬モデル(PRM)である「Web-Shepherd」を提案します。これを実現するために、まず、多様なドメインと難易度にわたる40Kのステップレベルの選好ペアと注釈付きチェックリストを含む大規模データセット「WebPRM Collection」を構築しました。次に、PRMを評価するための初のメタ評価ベンチマーク「WebRewardBench」も導入しました。実験では、Web-ShepherdがWebRewardBenchにおいてGPT-4oを使用した場合と比較して約30ポイント高い精度を達成することを確認しました。さらに、GPT-4o-miniをポリシーとして、Web-Shepherdを検証器として使用してWebArena-liteでテストした場合、GPT-4o-miniを検証器として使用した場合と比較して10.9ポイント高いパフォーマンスを、10分の1のコストで達成しました。私たちのモデル、データセット、コードはLINKで公開されています。
English
Web navigation is a unique domain that can automate many repetitive real-life tasks and is challenging as it requires long-horizon sequential decision making beyond typical multimodal large language model (MLLM) tasks. Yet, specialized reward models for web navigation that can be utilized during both training and test-time have been absent until now. Despite the importance of speed and cost-effectiveness, prior works have utilized MLLMs as reward models, which poses significant constraints for real-world deployment. To address this, in this work, we propose the first process reward model (PRM) called Web-Shepherd which could assess web navigation trajectories in a step-level. To achieve this, we first construct the WebPRM Collection, a large-scale dataset with 40K step-level preference pairs and annotated checklists spanning diverse domains and difficulty levels. Next, we also introduce the WebRewardBench, the first meta-evaluation benchmark for evaluating PRMs. In our experiments, we observe that our Web-Shepherd achieves about 30 points better accuracy compared to using GPT-4o on WebRewardBench. Furthermore, when testing on WebArena-lite by using GPT-4o-mini as the policy and Web-Shepherd as the verifier, we achieve 10.9 points better performance, in 10 less cost compared to using GPT-4o-mini as the verifier. Our model, dataset, and code are publicly available at LINK.

Summary

AI-Generated Summary

PDF864May 22, 2025