WebChallenger: een betrouwbare en efficiënte generalistische webagent

Samenvatting

Autonome webnavigatie blijft uitdagend voor LLM-agenten, en de sterkste generalistische systemen zijn afhankelijk van propriëtaire redeneermodellen waarvan de inferentiekosten prohibitief zijn voor de repetitieve taken waarvoor dergelijke agenten het nuttigst zouden zijn. Wij stellen dat deze kloof niet voortkomt uit onvoldoende modelcapaciteit, maar uit agentarchitecturen die er niet in slagen drie menselijke cognitieve voordelen te repliceren: selectieve aandacht voor relevante paginaregio's, blijvend geheugen van websitestructuur en procedurele vloeiendheid in gangbare interactiepatronen. We introduceren WebChallenger, een webagentframework dat elke kloof aanpakt via architectuurontwerp in plaats van modelschaal, gebouwd rond PageMem: een gestructureerde paginarepresentatie die deterministisch wordt geconstrueerd uit de DOM en elke pagina presenteert als een hiërarchie van semantische secties met korte samenvattingen. Op deze gedeelde ondergrond bouwen we drie mechanismen die de drie cognitieve voordelen weerspiegelen: een verdeel-en-heers observatiepijplijn waarmee de agent sectiesamenvattingen kan scannen en alleen details uit taakrelevante regio's kan extraheren; een lichtgewicht exploratie- en geheugensysteem dat elke website eenmalig doorloopt om een herbruikbare kaart van pagina's en elementgedragingen op te bouwen; en samengestelde actieworkflows die gangbare meerstapsinteracties samenvatten tot enkele agentacties, met automatische afhandeling van gedeeltelijke statuswijzigingen. Omdat alle drie over PageMem opereren, generaliseert het framework over websites heen zonder websitespecifieke adapters. Met standaard opengewichtmodellen zonder fine-tuning bereikt ons systeem 56,3% op WebArena, 48,7% op VisualWebArena, 51,0% op Online-Mind2Web en 70,9% op WorkArena, waarmee het de prestaties van geavanceerde propriëtaire systemen benadert tegen een fractie van de kosten. Onze code is uitgebracht op https://github.com/jayoohwang1/webchallenger.

English

Autonomous web navigation remains challenging for LLM agents, and the strongest generalist systems rely on proprietary reasoning models whose inference cost is prohibitive for the repetitive tasks where such agents would be most useful. We argue this gap stems not from insufficient model capability but from agent architectures that fail to replicate three human cognitive advantages: selective attention to relevant page regions, persistent memory of website structure, and procedural fluency with common interaction patterns. We introduce WebChallenger, a web agent framework that addresses each gap through architecture design rather than model scale, built around PageMem: a structured page representation deterministically constructed from the DOM that exposes each page as a hierarchy of semantic sections with short summaries. On this shared substrate we build three mechanisms that mirror the three cognitive advantages: a divide-and-conquer observation pipeline that lets the agent skim section summaries and extract details only from task-relevant regions; a lightweight exploration and memory system that traverses each website once to build a reusable map of pages and element behaviors; and compound action workflows that collapse common multi-step interactions into single agent actions, handling partial state changes automatically. Because all three operate over PageMem, the framework generalizes across websites without site-specific adapters. Using off-the-shelf open-weight models without fine-tuning, our system achieves 56.3% on WebArena, 48.7% on VisualWebArena, 51.0% on Online-Mind2Web, and 70.9% on WorkArena, approaching frontier proprietary systems at a fraction of the cost. Our code is released at https://github.com/jayoohwang1/webchallenger