Web-Shepherd: 웹 에이전트 강화를 위한 PRM(Probabilistic Roadmap) 기술의 발전Web-Shepherd: Advancing PRMs for Reinforcing Web Agents
웹 탐색은 반복적인 실생활 작업을 자동화할 수 있는 독특한 분야이며, 일반적인 멀티모달 대형 언어 모델(MLLM) 작업을 넘어서는 장기적 순차적 의사결정을 요구하기 때문에 도전적인 과제입니다. 그러나 지금까지 훈련 및 테스트 시간 모두에 활용할 수 있는 웹 탐색 전용 보상 모델은 존재하지 않았습니다. 속도와 비용 효율성의 중요성에도 불구하고, 기존 연구에서는 MLLM을 보상 모델로 사용하여 실제 배포에 상당한 제약을 가했습니다. 이를 해결하기 위해, 본 연구에서는 웹 탐색 궤적을 단계별로 평가할 수 있는 최초의 프로세스 보상 모델(PRM)인 Web-Shepherd를 제안합니다. 이를 위해, 먼저 다양한 도메인과 난이도를 아우르는 40,000개의 단계별 선호 쌍과 주석이 달린 체크리스트로 구성된 대규모 데이터셋인 WebPRM Collection을 구축했습니다. 다음으로, PRM을 평가하기 위한 최초의 메타 평가 벤치마크인 WebRewardBench를 소개합니다. 실험에서 우리의 Web-Shepherd는 WebRewardBench에서 GPT-4o를 사용했을 때보다 약 30점 더 높은 정확도를 달성했습니다. 또한, GPT-4o-mini를 정책으로 사용하고 Web-Shepherd를 검증자로 사용하여 WebArena-lite에서 테스트했을 때, GPT-4o-mini를 검증자로 사용했을 때보다 10.9점 더 나은 성능을 달성했으며, 비용도 10배 더 적게 들었습니다. 우리의 모델, 데이터셋, 코드는 LINK에서 공개적으로 이용 가능합니다.