Web-Shepherd:强化网络代理的PRM技术新进展Web-Shepherd: Advancing PRMs for Reinforcing Web Agents
网页导航是一个独特的领域,能够自动化许多重复的现实任务,其挑战性在于需要超越典型多模态大语言模型(MLLM)任务的长期序列决策。然而,迄今为止,尚缺乏可在训练和测试期间使用的专门针对网页导航的奖励模型。尽管速度和成本效益至关重要,先前的研究却将MLLM用作奖励模型,这为实际部署带来了显著限制。为解决这一问题,本研究首次提出了名为Web-Shepherd的过程奖励模型(PRM),它能够在步骤级别评估网页导航轨迹。为此,我们首先构建了WebPRM Collection,这是一个包含4万步级别偏好对及跨多个领域和难度等级的标注清单的大规模数据集。接着,我们还引入了WebRewardBench,这是首个用于评估PRM的元评估基准。实验结果显示,与使用GPT-4o相比,我们的Web-Shepherd在WebRewardBench上的准确率提升了约30个百分点。此外,在WebArena-lite测试中,采用GPT-4o-mini作为策略模型并以Web-Shepherd作为验证器时,我们实现了比使用GPT-4o-mini作为验证器时高出10.9个百分点的性能提升,同时成本减少了10倍。我们的模型、数据集及代码已公开于LINK。