Web-Shepherd: PRMを進化させたWebエージェント強化フレームワークWeb-Shepherd: Advancing PRMs for Reinforcing Web Agents
ウェブナビゲーションは、多くの反復的な現実世界のタスクを自動化できる独特な領域であり、典型的なマルチモーダル大規模言語モデル(MLLM)タスクを超えた長期的な逐次意思決定を必要とするため、挑戦的です。しかし、これまで、トレーニング時とテスト時の両方で利用可能な、ウェブナビゲーション専用の報酬モデルは存在しませんでした。速度とコスト効率の重要性にもかかわらず、これまでの研究ではMLLMを報酬モデルとして使用しており、実世界での展開に大きな制約をもたらしていました。これを解決するため、本研究では、ウェブナビゲーションの軌跡をステップレベルで評価できる初のプロセス報酬モデル(PRM)である「Web-Shepherd」を提案します。これを実現するために、まず、多様なドメインと難易度にわたる40Kのステップレベルの選好ペアと注釈付きチェックリストを含む大規模データセット「WebPRM Collection」を構築しました。次に、PRMを評価するための初のメタ評価ベンチマーク「WebRewardBench」も導入しました。実験では、Web-ShepherdがWebRewardBenchにおいてGPT-4oを使用した場合と比較して約30ポイント高い精度を達成することを確認しました。さらに、GPT-4o-miniをポリシーとして、Web-Shepherdを検証器として使用してWebArena-liteでテストした場合、GPT-4o-miniを検証器として使用した場合と比較して10.9ポイント高いパフォーマンスを、10分の1のコストで達成しました。私たちのモデル、データセット、コードはLINKで公開されています。