WebChallenger: Un agente web generalista confiable y eficiente

Resumen

La navegación web autónoma sigue siendo un desafío para los agentes basados en modelos de lenguaje de gran escala (LLM), y los sistemas generalistas más potentes dependen de modelos de razonamiento propietarios cuyo costo de inferencia resulta prohibitivo para las tareas repetitivas en las que dichos agentes serían más útiles. Sostenemos que esta brecha no proviene de una capacidad insuficiente del modelo, sino de arquitecturas de agente que no logran replicar tres ventajas cognitivas humanas: la atención selectiva a regiones relevantes de la página, la memoria persistente de la estructura del sitio web y la fluidez procedimental en patrones de interacción comunes. Presentamos WebChallenger, un marco de trabajo para agentes web que aborda cada una de estas brechas mediante el diseño arquitectónico, no el escalado del modelo, construido en torno a PageMem: una representación estructurada de página construida determinísticamente a partir del DOM que expone cada página como una jerarquía de secciones semánticas con resúmenes breves. Sobre esta base compartida, implementamos tres mecanismos que reflejan las tres ventajas cognitivas: un pipeline de observación divide y vencerás que permite al agente revisar resúmenes de secciones y extraer detalles solo de regiones relevantes para la tarea; un sistema ligero de exploración y memoria que recorre cada sitio web una vez para construir un mapa reutilizable de páginas y comportamientos de elementos; y flujos de trabajo de acciones compuestas que convierten interacciones comunes de múltiples pasos en acciones únicas del agente, manejando automáticamente cambios de estado parciales. Dado que los tres operan sobre PageMem, el marco se generaliza entre sitios web sin necesidad de adaptadores específicos. Utilizando modelos abiertos listos para usar sin ajuste fino, nuestro sistema alcanza un 56.3% en WebArena, un 48.7% en VisualWebArena, un 51.0% en Online-Mind2Web y un 70.9% en WorkArena, acercándose a los sistemas propietarios de última generación a una fracción del costo. Nuestro código está disponible en https://github.com/jayoohwang1/webchallenger.

English

Autonomous web navigation remains challenging for LLM agents, and the strongest generalist systems rely on proprietary reasoning models whose inference cost is prohibitive for the repetitive tasks where such agents would be most useful. We argue this gap stems not from insufficient model capability but from agent architectures that fail to replicate three human cognitive advantages: selective attention to relevant page regions, persistent memory of website structure, and procedural fluency with common interaction patterns. We introduce WebChallenger, a web agent framework that addresses each gap through architecture design rather than model scale, built around PageMem: a structured page representation deterministically constructed from the DOM that exposes each page as a hierarchy of semantic sections with short summaries. On this shared substrate we build three mechanisms that mirror the three cognitive advantages: a divide-and-conquer observation pipeline that lets the agent skim section summaries and extract details only from task-relevant regions; a lightweight exploration and memory system that traverses each website once to build a reusable map of pages and element behaviors; and compound action workflows that collapse common multi-step interactions into single agent actions, handling partial state changes automatically. Because all three operate over PageMem, the framework generalizes across websites without site-specific adapters. Using off-the-shelf open-weight models without fine-tuning, our system achieves 56.3% on WebArena, 48.7% on VisualWebArena, 51.0% on Online-Mind2Web, and 70.9% on WorkArena, approaching frontier proprietary systems at a fraction of the cost. Our code is released at https://github.com/jayoohwang1/webchallenger