WebChallenger: Um Agente Web Generalista Confiável e Eficiente

Resumo

A navegação autônoma na web continua desafiadora para agentes de LLM, e os sistemas generalistas mais fortes dependem de modelos de raciocínio proprietários cujo custo de inferência é proibitivo para as tarefas repetitivas onde tais agentes seriam mais úteis. Argumentamos que essa lacuna não decorre de capacidade insuficiente do modelo, mas de arquiteturas de agente que falham em replicar três vantagens cognitivas humanas: atenção seletiva a regiões relevantes da página, memória persistente da estrutura do site e fluência procedural em padrões comuns de interação. Apresentamos o WebChallenger, um framework de agente web que aborda cada lacuna por meio do design da arquitetura, e não da escala do modelo, construído em torno do PageMem: uma representação de página estruturada construída deterministicamente a partir do DOM que expõe cada página como uma hierarquia de seções semânticas com resumos curtos. Nesse substrato compartilhado, construímos três mecanismos que espelham as três vantagens cognitivas: um pipeline de observação do tipo dividir e conquistar que permite ao agente examinar resumos de seções e extrair detalhes apenas de regiões relevantes para a tarefa; um sistema leve de exploração e memória que percorre cada site uma vez para construir um mapa reutilizável de páginas e comportamentos de elementos; e fluxos de trabalho de ações compostas que condensam interações comuns de múltiplas etapas em ações únicas do agente, lidando automaticamente com mudanças parciais de estado. Como todos os três operam sobre o PageMem, o framework generaliza entre sites sem adaptadores específicos. Usando modelos de peso aberto prontos para uso sem ajuste fino, nosso sistema alcança 56,3% no WebArena, 48,7% no VisualWebArena, 51,0% no Online-Mind2Web e 70,9% no WorkArena, aproximando-se de sistemas proprietários de ponta por uma fração do custo. Nosso código está disponível em https://github.com/jayoohwang1/webchallenger.

English

Autonomous web navigation remains challenging for LLM agents, and the strongest generalist systems rely on proprietary reasoning models whose inference cost is prohibitive for the repetitive tasks where such agents would be most useful. We argue this gap stems not from insufficient model capability but from agent architectures that fail to replicate three human cognitive advantages: selective attention to relevant page regions, persistent memory of website structure, and procedural fluency with common interaction patterns. We introduce WebChallenger, a web agent framework that addresses each gap through architecture design rather than model scale, built around PageMem: a structured page representation deterministically constructed from the DOM that exposes each page as a hierarchy of semantic sections with short summaries. On this shared substrate we build three mechanisms that mirror the three cognitive advantages: a divide-and-conquer observation pipeline that lets the agent skim section summaries and extract details only from task-relevant regions; a lightweight exploration and memory system that traverses each website once to build a reusable map of pages and element behaviors; and compound action workflows that collapse common multi-step interactions into single agent actions, handling partial state changes automatically. Because all three operate over PageMem, the framework generalizes across websites without site-specific adapters. Using off-the-shelf open-weight models without fine-tuning, our system achieves 56.3% on WebArena, 48.7% on VisualWebArena, 51.0% on Online-Mind2Web, and 70.9% on WorkArena, approaching frontier proprietary systems at a fraction of the cost. Our code is released at https://github.com/jayoohwang1/webchallenger