WebArbiter: Een Principe-Gestuurd Redeneerproces Beloningsmodel voor Webagentschappen

Samenvatting

Webagents hebben een groot potentieel voor het automatiseren van complexe computertaken, maar hun interacties omvatten sequentiële besluitvorming op lange termijn met onomkeerbare acties. In dergelijke settings is supervisie op basis van uitkomsten schaars en vertraagd, waarbij vaak incorrecte trajecten worden beloond en schaalbaarheid tijdens inferentie niet wordt ondersteund. Dit motiveert het gebruik van Process Reward Models (WebPRM's) voor webnavigatie, maar bestaande benaderingen blijven beperkt: scalaire WebPRM's comprimeren voortgang tot grove, zwak gegronde signalen, terwijl checklist-gebaseerde WebPRM's vertrouwen op brosse template-matching die faalt bij lay-out- of semantische wijzigingen en vaak oppervlakkig correcte acties ten onrechte als succesvol bestempelen, wat weinig inzicht of interpreteerbaarheid biedt. Om deze uitdagingen aan te pakken, introduceren we WebArbiter, een 'reasoning-first', principe-afleidende WebPRM die beloningsmodellering formuleert als tekstgeneratie, waarbij gestructureerde rechtvaardigingen worden geproduceerd die eindigen met een voorkeursuitspraak en de actie identificeren die het meest bijdraagt aan taakvoltooiing onder de huidige context. De training volgt een pijplijn in twee fasen: reasoning-distillatie rust het model uit met coherent, principe-gestuurd redeneren, en reinforcement learning corrigeert docent-vooroordelen door uitspraken direct af te stemmen op correctheid, wat sterkere generalisatie mogelijk maakt. Voor systematische evaluatie brengen we WebPRMBench uit, een uitgebreide benchmark die vier diverse webomgevingen omspant met rijke taken en hoogwaardige voorkeursannotaties. Op WebPRMBench presteert WebArbiter-7B 9,1 punten beter dan de sterkste baseline, GPT-5. Bij beloning-gestuurd trajectonderzoek op WebArena-Lite overtreft het de beste eerdere WebPRM met tot 7,2 punten, wat de robuustheid en praktische waarde bij complexe webtaken in de echte wereld onderstreept.

English

Web agents hold great potential for automating complex computer tasks, yet their interactions involve long-horizon, sequential decision-making with irreversible actions. In such settings, outcome-based supervision is sparse and delayed, often rewarding incorrect trajectories and failing to support inference-time scaling. This motivates the use of Process Reward Models (WebPRMs) for web navigation, but existing approaches remain limited: scalar WebPRMs collapse progress into coarse, weakly grounded signals, while checklist-based WebPRMs rely on brittle template matching that fails under layout or semantic changes and often mislabels superficially correct actions as successful, providing little insight or interpretability. To address these challenges, we introduce WebArbiter, a reasoning-first, principle-inducing WebPRM that formulates reward modeling as text generation, producing structured justifications that conclude with a preference verdict and identify the action most conducive to task completion under the current context. Training follows a two-stage pipeline: reasoning distillation equips the model with coherent principle-guided reasoning, and reinforcement learning corrects teacher biases by directly aligning verdicts with correctness, enabling stronger generalization. To support systematic evaluation, we release WebPRMBench, a comprehensive benchmark spanning four diverse web environments with rich tasks and high-quality preference annotations. On WebPRMBench, WebArbiter-7B outperforms the strongest baseline, GPT-5, by 9.1 points. In reward-guided trajectory search on WebArena-Lite, it surpasses the best prior WebPRM by up to 7.2 points, underscoring its robustness and practical value in real-world complex web tasks.

WebArbiter: Een Principe-Gestuurd Redeneerproces Beloningsmodel voor Webagentschappen

WebArbiter: A Principle-Guided Reasoning Process Reward Model for Web Agents

Samenvatting

Support