WebChallenger: надежный и эффективный универсальный веб-агент

Аннотация

Автономная навигация по вебу остаётся сложной задачей для LLM-агентов, а сильнейшие универсальные системы полагаются на проприетарные модели рассуждений, стоимость инференса которых является запретительно высокой для повторяющихся задач, где такие агенты были бы наиболее полезны. Мы утверждаем, что этот разрыв обусловлен не недостаточной способностью модели, а архитектурами агентов, которые не воспроизводят три когнитивных преимущества человека: избирательное внимание к релевантным областям страницы, устойчивую память о структуре веб-сайта и процедурную беглость в работе с распространёнными шаблонами взаимодействия. Мы представляем WebChallenger — фреймворк веб-агента, который устраняет каждый из этих пробелов за счёт архитектурного проектирования, а не масштаба модели, построенный на основе PageMem: структурированного представления страницы, детерминированно создаваемого из DOM, которое отображает каждую страницу как иерархию семантических разделов с краткими сводками. На этой общей основе мы создаём три механизма, отражающие три когнитивных преимущества: конвейер наблюдения «разделяй и властвуй», позволяющий агенту просматривать сводки разделов и извлекать детали только из областей, релевантных задаче; легковесную систему исследования и памяти, которая однократно обходит каждый веб-сайт для построения многократно используемой карты страниц и поведения элементов; а также составные рабочие процессы действий, которые объединяют типичные многошаговые взаимодействия в единые действия агента, автоматически обрабатывая частичные изменения состояния. Поскольку все три механизма работают поверх PageMem, фреймворк обобщается на разные веб-сайты без необходимости в адаптерах, специфичных для сайта. Используя готовые модели с открытыми весами без тонкой настройки, наша система достигает 56,3% на WebArena, 48,7% на VisualWebArena, 51,0% на Online-Mind2Web и 70,9% на WorkArena, приближаясь к передовым проприетарным системам при значительно меньших затратах. Наш код опубликован по адресу https://github.com/jayoohwang1/webchallenger.

English

Autonomous web navigation remains challenging for LLM agents, and the strongest generalist systems rely on proprietary reasoning models whose inference cost is prohibitive for the repetitive tasks where such agents would be most useful. We argue this gap stems not from insufficient model capability but from agent architectures that fail to replicate three human cognitive advantages: selective attention to relevant page regions, persistent memory of website structure, and procedural fluency with common interaction patterns. We introduce WebChallenger, a web agent framework that addresses each gap through architecture design rather than model scale, built around PageMem: a structured page representation deterministically constructed from the DOM that exposes each page as a hierarchy of semantic sections with short summaries. On this shared substrate we build three mechanisms that mirror the three cognitive advantages: a divide-and-conquer observation pipeline that lets the agent skim section summaries and extract details only from task-relevant regions; a lightweight exploration and memory system that traverses each website once to build a reusable map of pages and element behaviors; and compound action workflows that collapse common multi-step interactions into single agent actions, handling partial state changes automatically. Because all three operate over PageMem, the framework generalizes across websites without site-specific adapters. Using off-the-shelf open-weight models without fine-tuning, our system achieves 56.3% on WebArena, 48.7% on VisualWebArena, 51.0% on Online-Mind2Web, and 70.9% on WorkArena, approaching frontier proprietary systems at a fraction of the cost. Our code is released at https://github.com/jayoohwang1/webchallenger