Web-Shepherd: 웹 에이전트 강화를 위한 PRM(Probabilistic Roadmap) 기술의 발전
Web-Shepherd: Advancing PRMs for Reinforcing Web Agents
May 21, 2025
저자: Hyungjoo Chae, Sunghwan Kim, Junhee Cho, Seungone Kim, Seungjun Moon, Gyeom Hwangbo, Dongha Lim, Minjin Kim, Yeonjun Hwang, Minju Gwak, Dongwook Choi, Minseok Kang, Gwanhoon Im, ByeongUng Cho, Hyojun Kim, Jun Hee Han, Taeyoon Kwon, Minju Kim, Beong-woo Kwak, Dongjin Kang, Jinyoung Yeo
cs.AI
초록
웹 탐색은 반복적인 실생활 작업을 자동화할 수 있는 독특한 분야이며, 일반적인 멀티모달 대형 언어 모델(MLLM) 작업을 넘어서는 장기적 순차적 의사결정을 요구하기 때문에 도전적인 과제입니다. 그러나 지금까지 훈련 및 테스트 시간 모두에 활용할 수 있는 웹 탐색 전용 보상 모델은 존재하지 않았습니다. 속도와 비용 효율성의 중요성에도 불구하고, 기존 연구에서는 MLLM을 보상 모델로 사용하여 실제 배포에 상당한 제약을 가했습니다. 이를 해결하기 위해, 본 연구에서는 웹 탐색 궤적을 단계별로 평가할 수 있는 최초의 프로세스 보상 모델(PRM)인 Web-Shepherd를 제안합니다. 이를 위해, 먼저 다양한 도메인과 난이도를 아우르는 40,000개의 단계별 선호 쌍과 주석이 달린 체크리스트로 구성된 대규모 데이터셋인 WebPRM Collection을 구축했습니다. 다음으로, PRM을 평가하기 위한 최초의 메타 평가 벤치마크인 WebRewardBench를 소개합니다. 실험에서 우리의 Web-Shepherd는 WebRewardBench에서 GPT-4o를 사용했을 때보다 약 30점 더 높은 정확도를 달성했습니다. 또한, GPT-4o-mini를 정책으로 사용하고 Web-Shepherd를 검증자로 사용하여 WebArena-lite에서 테스트했을 때, GPT-4o-mini를 검증자로 사용했을 때보다 10.9점 더 나은 성능을 달성했으며, 비용도 10배 더 적게 들었습니다. 우리의 모델, 데이터셋, 코드는 LINK에서 공개적으로 이용 가능합니다.
English
Web navigation is a unique domain that can automate many repetitive real-life
tasks and is challenging as it requires long-horizon sequential decision making
beyond typical multimodal large language model (MLLM) tasks. Yet, specialized
reward models for web navigation that can be utilized during both training and
test-time have been absent until now. Despite the importance of speed and
cost-effectiveness, prior works have utilized MLLMs as reward models, which
poses significant constraints for real-world deployment. To address this, in
this work, we propose the first process reward model (PRM) called Web-Shepherd
which could assess web navigation trajectories in a step-level. To achieve
this, we first construct the WebPRM Collection, a large-scale dataset with 40K
step-level preference pairs and annotated checklists spanning diverse domains
and difficulty levels. Next, we also introduce the WebRewardBench, the first
meta-evaluation benchmark for evaluating PRMs. In our experiments, we observe
that our Web-Shepherd achieves about 30 points better accuracy compared to
using GPT-4o on WebRewardBench. Furthermore, when testing on WebArena-lite by
using GPT-4o-mini as the policy and Web-Shepherd as the verifier, we achieve
10.9 points better performance, in 10 less cost compared to using GPT-4o-mini
as the verifier. Our model, dataset, and code are publicly available at LINK.Summary
AI-Generated Summary