ChatPaper.aiChatPaper

WebArbiter: 웹 에이전트를 위한 원칙 기반 추론 과정 보상 모델

WebArbiter: A Principle-Guided Reasoning Process Reward Model for Web Agents

January 29, 2026
저자: Yao Zhang, Shijie Tang, Zeyu Li, Zhen Han, Volker Tresp
cs.AI

초록

웹 에이전트는 복잡한 컴퓨터 작업 자동화에 큰 잠재력을 지니지만, 그 상호작용은 되돌릴 수 없는 행동을 포함한 장기적이고 순차적인 의사 결정을 수반합니다. 이러한 환경에서는 결과 기반 지도가 희소하고 지연되어 종종 잘못된 경로를 보상하며 추론 시간 확장을 지원하지 못합니다. 이는 웹 탐색을 위한 과정 보상 모델(WebPRM) 사용을 촉진하지만, 기존 접근법은 여전히 한계가 있습니다: 스칼라 WebPRM은 진행 상황을 거칠고 약하게 근거된 신호로 축소하는 반면, 체크리스트 기반 WebPRM은 레이아웃이나 의미 변화에 취약한 취성 템플릿 매칭에 의존하여 표면적으로 올바른 행동을 성공으로 잘못 라벨링하는 경우가 많아 통찰력이나 해석 가능성을 거의 제공하지 않습니다. 이러한 과제를 해결하기 위해 우리는 보상 모델링을 텍스트 생성으로 공식화하고, 현재 맥락에서 작업 완수에 가장 기여하는 행동을 식별하며 선호 판정으로 결론을 내리는 구조화된 근거를 생성하는, 추론 중심 원칙 유도 WebPRM인 WebArbiter를 소개합니다. 학습은 두 단계 파이프라인을 따릅니다: 추론 증류는 모델에 일관된 원칙 기반 추론 능력을 부여하고, 강화 학습은 판정을 정확도와 직접 정렬하여 교사 편향을 수정하여 더 강력한 일반화를 가능하게 합니다. 체계적인 평가를 지원하기 위해 우리는 다양한 작업과 고품질 선호 주석을 가진 4가지 다양한 웹 환경을 아우르는 포괄적인 벤치마크인 WebPRMBench를 공개합니다. WebPRMBench에서 WebArbiter-7B는 가장 강력한 기준 모델인 GPT-5를 9.1점 차이로 능가했습니다. WebArena-Lite에서의 보안 안내 경로 탐색에서는 기존 최고 WebPRM을 최대 7.2점까지 앞지르며, 실제 세계의 복잡한 웹 작업에서의 견고성과 실용적 가치를 입증했습니다.
English
Web agents hold great potential for automating complex computer tasks, yet their interactions involve long-horizon, sequential decision-making with irreversible actions. In such settings, outcome-based supervision is sparse and delayed, often rewarding incorrect trajectories and failing to support inference-time scaling. This motivates the use of Process Reward Models (WebPRMs) for web navigation, but existing approaches remain limited: scalar WebPRMs collapse progress into coarse, weakly grounded signals, while checklist-based WebPRMs rely on brittle template matching that fails under layout or semantic changes and often mislabels superficially correct actions as successful, providing little insight or interpretability. To address these challenges, we introduce WebArbiter, a reasoning-first, principle-inducing WebPRM that formulates reward modeling as text generation, producing structured justifications that conclude with a preference verdict and identify the action most conducive to task completion under the current context. Training follows a two-stage pipeline: reasoning distillation equips the model with coherent principle-guided reasoning, and reinforcement learning corrects teacher biases by directly aligning verdicts with correctness, enabling stronger generalization. To support systematic evaluation, we release WebPRMBench, a comprehensive benchmark spanning four diverse web environments with rich tasks and high-quality preference annotations. On WebPRMBench, WebArbiter-7B outperforms the strongest baseline, GPT-5, by 9.1 points. In reward-guided trajectory search on WebArena-Lite, it surpasses the best prior WebPRM by up to 7.2 points, underscoring its robustness and practical value in real-world complex web tasks.
PDF02January 31, 2026