ChatPaper.aiChatPaper

Web-Shepherd: 웹 에이전트 강화를 위한 PRM(Probabilistic Roadmap) 기술의 발전

Web-Shepherd: Advancing PRMs for Reinforcing Web Agents

May 21, 2025
저자: Hyungjoo Chae, Sunghwan Kim, Junhee Cho, Seungone Kim, Seungjun Moon, Gyeom Hwangbo, Dongha Lim, Minjin Kim, Yeonjun Hwang, Minju Gwak, Dongwook Choi, Minseok Kang, Gwanhoon Im, ByeongUng Cho, Hyojun Kim, Jun Hee Han, Taeyoon Kwon, Minju Kim, Beong-woo Kwak, Dongjin Kang, Jinyoung Yeo
cs.AI

초록

웹 탐색은 반복적인 실생활 작업을 자동화할 수 있는 독특한 분야이며, 일반적인 멀티모달 대형 언어 모델(MLLM) 작업을 넘어서는 장기적 순차적 의사결정을 요구하기 때문에 도전적인 과제입니다. 그러나 지금까지 훈련 및 테스트 시간 모두에 활용할 수 있는 웹 탐색 전용 보상 모델은 존재하지 않았습니다. 속도와 비용 효율성의 중요성에도 불구하고, 기존 연구에서는 MLLM을 보상 모델로 사용하여 실제 배포에 상당한 제약을 가했습니다. 이를 해결하기 위해, 본 연구에서는 웹 탐색 궤적을 단계별로 평가할 수 있는 최초의 프로세스 보상 모델(PRM)인 Web-Shepherd를 제안합니다. 이를 위해, 먼저 다양한 도메인과 난이도를 아우르는 40,000개의 단계별 선호 쌍과 주석이 달린 체크리스트로 구성된 대규모 데이터셋인 WebPRM Collection을 구축했습니다. 다음으로, PRM을 평가하기 위한 최초의 메타 평가 벤치마크인 WebRewardBench를 소개합니다. 실험에서 우리의 Web-Shepherd는 WebRewardBench에서 GPT-4o를 사용했을 때보다 약 30점 더 높은 정확도를 달성했습니다. 또한, GPT-4o-mini를 정책으로 사용하고 Web-Shepherd를 검증자로 사용하여 WebArena-lite에서 테스트했을 때, GPT-4o-mini를 검증자로 사용했을 때보다 10.9점 더 나은 성능을 달성했으며, 비용도 10배 더 적게 들었습니다. 우리의 모델, 데이터셋, 코드는 LINK에서 공개적으로 이용 가능합니다.
English
Web navigation is a unique domain that can automate many repetitive real-life tasks and is challenging as it requires long-horizon sequential decision making beyond typical multimodal large language model (MLLM) tasks. Yet, specialized reward models for web navigation that can be utilized during both training and test-time have been absent until now. Despite the importance of speed and cost-effectiveness, prior works have utilized MLLMs as reward models, which poses significant constraints for real-world deployment. To address this, in this work, we propose the first process reward model (PRM) called Web-Shepherd which could assess web navigation trajectories in a step-level. To achieve this, we first construct the WebPRM Collection, a large-scale dataset with 40K step-level preference pairs and annotated checklists spanning diverse domains and difficulty levels. Next, we also introduce the WebRewardBench, the first meta-evaluation benchmark for evaluating PRMs. In our experiments, we observe that our Web-Shepherd achieves about 30 points better accuracy compared to using GPT-4o on WebRewardBench. Furthermore, when testing on WebArena-lite by using GPT-4o-mini as the policy and Web-Shepherd as the verifier, we achieve 10.9 points better performance, in 10 less cost compared to using GPT-4o-mini as the verifier. Our model, dataset, and code are publicly available at LINK.

Summary

AI-Generated Summary

PDF864May 22, 2025