WebChallenger: Ein zuverlässiger und effizienter Generalist-Web-Agent

Zusammenfassung

Die autonome Websuche stellt für LLM-Agenten weiterhin eine Herausforderung dar, und die leistungsfähigsten allgemeinen Systeme basieren auf proprietären Reasoning-Modellen, deren Inferenzkosten für die repetitiven Aufgaben, bei denen solche Agenten am nützlichsten wären, unerschwinglich sind. Wir argumentieren, dass diese Lücke nicht auf unzureichende Modellfähigkeiten zurückzuführen ist, sondern auf Agentenarchitekturen, die drei kognitive Vorteile des Menschen nicht nachbilden: selektive Aufmerksamkeit für relevante Seitenbereiche, dauerhaftes Gedächtnis für die Website-Struktur und prozedurale Routine bei gängigen Interaktionsmustern. Wir stellen WebChallenger vor, ein Web-Agenten-Framework, das jede dieser Lücken durch Architekturdesign statt durch Modellgröße schließt. Es basiert auf PageMem: einer strukturierten Seitenrepräsentation, die deterministisch aus dem DOM erstellt wird und jede Seite als Hierarchie semantischer Abschnitte mit kurzen Zusammenfassungen darstellt. Auf dieser gemeinsamen Grundlage bauen wir drei Mechanismen, die die drei kognitiven Vorteile widerspiegeln: eine Teile-und-herrsche-Beobachtungspipeline, die es dem Agenten ermöglicht, Abschnittszusammenfassungen zu überfliegen und Details nur aus aufgabenrelevanten Bereichen zu extrahieren; ein leichtgewichtiges Erkundungs- und Gedächtnissystem, das jede Website einmal durchläuft, um eine wiederverwendbare Karte von Seiten und Elementverhalten zu erstellen; sowie zusammengesetzte Aktionsworkflows, die gängige mehrstufige Interaktionen zu einzelnen Agentenaktionen zusammenfassen und Teilzustandsänderungen automatisch handhaben. Da alle drei Komponenten auf PageMem aufsetzen, generalisiert das Framework über Websites hinweg, ohne site-spezifische Adapter. Mit marktüblichen Open-Weight-Modellen ohne Feinabstimmung erreicht unser System 56,3 % auf WebArena, 48,7 % auf VisualWebArena, 51,0 % auf Online-Mind2Web und 70,9 % auf WorkArena und nähert sich damit führenden proprietären Systemen zu einem Bruchteil der Kosten an. Unser Code ist unter https://github.com/jayoohwang1/webchallenger veröffentlicht.

English

Autonomous web navigation remains challenging for LLM agents, and the strongest generalist systems rely on proprietary reasoning models whose inference cost is prohibitive for the repetitive tasks where such agents would be most useful. We argue this gap stems not from insufficient model capability but from agent architectures that fail to replicate three human cognitive advantages: selective attention to relevant page regions, persistent memory of website structure, and procedural fluency with common interaction patterns. We introduce WebChallenger, a web agent framework that addresses each gap through architecture design rather than model scale, built around PageMem: a structured page representation deterministically constructed from the DOM that exposes each page as a hierarchy of semantic sections with short summaries. On this shared substrate we build three mechanisms that mirror the three cognitive advantages: a divide-and-conquer observation pipeline that lets the agent skim section summaries and extract details only from task-relevant regions; a lightweight exploration and memory system that traverses each website once to build a reusable map of pages and element behaviors; and compound action workflows that collapse common multi-step interactions into single agent actions, handling partial state changes automatically. Because all three operate over PageMem, the framework generalizes across websites without site-specific adapters. Using off-the-shelf open-weight models without fine-tuning, our system achieves 56.3% on WebArena, 48.7% on VisualWebArena, 51.0% on Online-Mind2Web, and 70.9% on WorkArena, approaching frontier proprietary systems at a fraction of the cost. Our code is released at https://github.com/jayoohwang1/webchallenger