ChatPaper.aiChatPaper

WebArbiter: Принципиально-ориентированная модель вознаграждения для процесса рассуждения веб-агентов

WebArbiter: A Principle-Guided Reasoning Process Reward Model for Web Agents

January 29, 2026
Авторы: Yao Zhang, Shijie Tang, Zeyu Li, Zhen Han, Volker Tresp
cs.AI

Аннотация

Веб-агенты обладают значительным потенциалом для автоматизации сложных компьютерных задач, однако их взаимодействия предполагают долгосрочное последовательное принятие решений с необратимыми действиями. В таких условиях обратная связь на основе результата является разреженной и запаздывающей, часто вознаграждая неверные траектории и не поддерживая масштабирование на этапе вывода. Это мотивирует использование моделей вознаграждения по процессу (WebPRM) для навигации в вебе, но существующие подходы остаются ограниченными: скалярные WebPRM сводят прогресс к грубым, слабо обоснованным сигналам, тогда как чеклист-ориентированные WebPRM полагаются на хрупкое шаблонное соответствие, которое нарушается при изменениях layout или семантики и часто ошибочно маркирует поверхностно правильные действия как успешные, обеспечивая малую объяснимость. Для решения этих проблем мы представляем WebArbiter — WebPRM с приоритетом логического вывода, формирующий принципы, который формулирует моделирование вознаграждения как генерацию текста, производя структурированные обоснования, завершающиеся вердиктом предпочтения и идентифицирующие действие, наиболее способствующее выполнению задачи в текущем контексте. Обучение следует двухэтапному пайплайну: дистилляция рассуждений наделяет модель последовательным принцип-ориентированным мышлением, а обучение с подкреплением корректирует смещения учителя за счет прямой сверки вердиктов с корректностью, обеспечивая лучшую обобщающую способность. Для систематической оценки мы представляем WebPRMBench — комплексный бенчмарк, охватывающий четыре разнородные веб-среды с богатым набором задач и высококачественными аннотациями предпочтений. На WebPRMBench WebArbiter-7B превосходит сильнейший базовый уровень, GPT-5, на 9.1 балла. При поиске траекторий с управлением вознаграждением на WebArena-Lite он превосходит лучшую предыдущую WebPRM до 7.2 балла, подчеркивая свою надежность и практическую ценность в реальных сложных веб-задачах.
English
Web agents hold great potential for automating complex computer tasks, yet their interactions involve long-horizon, sequential decision-making with irreversible actions. In such settings, outcome-based supervision is sparse and delayed, often rewarding incorrect trajectories and failing to support inference-time scaling. This motivates the use of Process Reward Models (WebPRMs) for web navigation, but existing approaches remain limited: scalar WebPRMs collapse progress into coarse, weakly grounded signals, while checklist-based WebPRMs rely on brittle template matching that fails under layout or semantic changes and often mislabels superficially correct actions as successful, providing little insight or interpretability. To address these challenges, we introduce WebArbiter, a reasoning-first, principle-inducing WebPRM that formulates reward modeling as text generation, producing structured justifications that conclude with a preference verdict and identify the action most conducive to task completion under the current context. Training follows a two-stage pipeline: reasoning distillation equips the model with coherent principle-guided reasoning, and reinforcement learning corrects teacher biases by directly aligning verdicts with correctness, enabling stronger generalization. To support systematic evaluation, we release WebPRMBench, a comprehensive benchmark spanning four diverse web environments with rich tasks and high-quality preference annotations. On WebPRMBench, WebArbiter-7B outperforms the strongest baseline, GPT-5, by 9.1 points. In reward-guided trajectory search on WebArena-Lite, it surpasses the best prior WebPRM by up to 7.2 points, underscoring its robustness and practical value in real-world complex web tasks.
PDF02January 31, 2026