WebArbiter: Un Modello di Ricompensa Basato su un Processo di Ragionamento Guidato da Principi per Agenti Web

Abstract

Gli agenti web hanno un grande potenziale per automatizzare compiti informatici complessi, ma le loro interazioni implicano processi decisionali sequenziali a lungo termine con azioni irreversibili. In tali contesti, la supervisione basata sui risultati è sporadica e ritardata, premiando spesso traiettorie errate e fallendo nel supportare il ridimensionamento durante l'inferenza. Ciò motiva l'uso di Process Reward Models (WebPRM) per la navigazione web, ma gli approcci esistenti rimangono limitati: i WebPRM scalari comprimono il progresso in segnali approssimativi e debolmente ancorati, mentre i WebPRM basati su checklist si affidano a corrispondenze template fragili che falliscono con cambiamenti di layout o semantici, etichettando spesso azioni superficialmente corrette come riuscite, offrendo poca chiarezza o interpretabilità. Per affrontare queste sfide, introduciamo WebArbiter, un WebPRM che privilegia il ragionamento e induce principi, modellando la ricompensa come generazione di testo, producendo giustificazioni strutturate che concludono con un verdetto di preferenza e identificano l'azione più favorevole al completamento del compito nel contesto corrente. L'addestramento segue una pipeline a due stadi: la distillazione del ragionamento fornisce al modello un processo logico coerente guidato da principi, e l'apprendimento per rinforzo corregge i bias del teacher allineando direttamente i verdetti con la correttezza, consentendo una generalizzazione più robusta. Per supportare una valutazione sistematica, rilasciamo WebPRMBench, un benchmark completo che copre quattro ambienti web diversificati con compiti ricchi e annotazioni di preferenza di alta qualità. Su WebPRMBench, WebArbiter-7B supera il baseline più forte, GPT-5, di 9,1 punti. Nella ricerca di traiettorie guidata da ricompense su WebArena-Lite, supera il miglior WebPRM precedente fino a 7,2 punti, sottolineando la sua robustezza e valore pratico in compiti web complessi del mondo reale.

English

Web agents hold great potential for automating complex computer tasks, yet their interactions involve long-horizon, sequential decision-making with irreversible actions. In such settings, outcome-based supervision is sparse and delayed, often rewarding incorrect trajectories and failing to support inference-time scaling. This motivates the use of Process Reward Models (WebPRMs) for web navigation, but existing approaches remain limited: scalar WebPRMs collapse progress into coarse, weakly grounded signals, while checklist-based WebPRMs rely on brittle template matching that fails under layout or semantic changes and often mislabels superficially correct actions as successful, providing little insight or interpretability. To address these challenges, we introduce WebArbiter, a reasoning-first, principle-inducing WebPRM that formulates reward modeling as text generation, producing structured justifications that conclude with a preference verdict and identify the action most conducive to task completion under the current context. Training follows a two-stage pipeline: reasoning distillation equips the model with coherent principle-guided reasoning, and reinforcement learning corrects teacher biases by directly aligning verdicts with correctness, enabling stronger generalization. To support systematic evaluation, we release WebPRMBench, a comprehensive benchmark spanning four diverse web environments with rich tasks and high-quality preference annotations. On WebPRMBench, WebArbiter-7B outperforms the strongest baseline, GPT-5, by 9.1 points. In reward-guided trajectory search on WebArena-Lite, it surpasses the best prior WebPRM by up to 7.2 points, underscoring its robustness and practical value in real-world complex web tasks.

WebArbiter: Un Modello di Ricompensa Basato su un Processo di Ragionamento Guidato da Principi per Agenti Web

WebArbiter: A Principle-Guided Reasoning Process Reward Model for Web Agents

Abstract

Support