WebArbiter: Um Modelo de Recompensa com Processo de Raciocínio Orientado por Princípios para Agentes Web

Resumo

Os agentes web possuem grande potencial para automatizar tarefas complexas em computadores, mas suas interações envolvem tomadas de decisão sequenciais de longo prazo com ações irreversíveis. Nesses contextos, a supervisão baseada em resultados é esparsa e tardia, frequentemente premiando trajetórias incorretas e falhando em suportar a escalabilidade durante a inferência. Isso motiva o uso de Modelos de Recompensa de Processo (WebPRMs) para navegação web, mas as abordagens existentes permanecem limitadas: os WebPRMs escalares condensam o progresso em sinais grosseiros e pouco fundamentados, enquanto os WebPRMs baseados em listas de verificação dependem de correspondência de templates frágil que falha com mudanças de layout ou semânticas e frequentemente rotula ações superficialmente corretas como bem-sucedidas, oferecendo pouca percepção ou interpretabilidade. Para enfrentar esses desafios, apresentamos o WebArbiter, um WebPRM que prioriza o raciocínio e induz princípios, formulando a modelagem de recompensa como geração de texto, produzindo justificativas estruturadas que concluem com um veredito de preferência e identificam a ação mais condutiva para a conclusão da tarefa no contexto atual. O treinamento segue um *pipeline* de dois estágios: a destilação de raciocínio equipa o modelo com um raciocínio coerente guiado por princípios, e o aprendizado por reforço corrige vieses do professor alinhando diretamente os vereditos com a correção, permitindo uma generalização mais robusta. Para apoiar uma avaliação sistemática, lançamos o WebPRMBench, um benchmark abrangente abrangendo quatro ambientes web diversos com tarefas ricas e anotações de preferência de alta qualidade. No WebPRMBench, o WebArbiter-7B supera a linha de base mais forte, o GPT-5, em 9.1 pontos. Na busca de trajetória guiada por recompensa no WebArena-Lite, ele supera o melhor WebPRM anterior em até 7.2 pontos, destacando sua robustez e valor prático em tarefas web complexas do mundo real.

English

Web agents hold great potential for automating complex computer tasks, yet their interactions involve long-horizon, sequential decision-making with irreversible actions. In such settings, outcome-based supervision is sparse and delayed, often rewarding incorrect trajectories and failing to support inference-time scaling. This motivates the use of Process Reward Models (WebPRMs) for web navigation, but existing approaches remain limited: scalar WebPRMs collapse progress into coarse, weakly grounded signals, while checklist-based WebPRMs rely on brittle template matching that fails under layout or semantic changes and often mislabels superficially correct actions as successful, providing little insight or interpretability. To address these challenges, we introduce WebArbiter, a reasoning-first, principle-inducing WebPRM that formulates reward modeling as text generation, producing structured justifications that conclude with a preference verdict and identify the action most conducive to task completion under the current context. Training follows a two-stage pipeline: reasoning distillation equips the model with coherent principle-guided reasoning, and reinforcement learning corrects teacher biases by directly aligning verdicts with correctness, enabling stronger generalization. To support systematic evaluation, we release WebPRMBench, a comprehensive benchmark spanning four diverse web environments with rich tasks and high-quality preference annotations. On WebPRMBench, WebArbiter-7B outperforms the strongest baseline, GPT-5, by 9.1 points. In reward-guided trajectory search on WebArena-Lite, it surpasses the best prior WebPRM by up to 7.2 points, underscoring its robustness and practical value in real-world complex web tasks.

WebArbiter: Um Modelo de Recompensa com Processo de Raciocínio Orientado por Princípios para Agentes Web

WebArbiter: A Principle-Guided Reasoning Process Reward Model for Web Agents

Resumo

Support