WebGames: Herausforderungen für allgemeine KI-Agenten zur Webbrowsing-Nutzung
WebGames: Challenging General-Purpose Web-Browsing AI Agents
February 25, 2025
Autoren: George Thomas, Alex J. Chan, Jikun Kang, Wenqi Wu, Filippos Christianos, Fraser Greenlee, Andy Toulis, Marvin Purtorab
cs.AI
Zusammenfassung
Wir stellen WebGames vor, eine umfassende Benchmark-Suite, die entwickelt wurde, um allgemeine Web-Browsing-KI-Agenten durch eine Sammlung von über 50 interaktiven Herausforderungen zu bewerten. Diese Herausforderungen sind speziell so gestaltet, dass sie für Menschen einfach zu bewältigen sind, während sie systematisch die Grenzen aktueller KI-Systeme in Bezug auf grundlegende Browser-Interaktionen, fortgeschrittene Eingabeverarbeitung, kognitive Aufgaben, Workflow-Automatisierung und interaktive Unterhaltung testen. Unser Framework eliminiert externe Abhängigkeiten durch eine hermetische Testumgebung und gewährleistet so reproduzierbare Bewertungen mit überprüfbaren Referenzlösungen. Wir bewerten führende Vision-Sprach-Modelle, darunter GPT-4o, Claude Computer-Use, Gemini-1.5-Pro und Qwen2-VL, im Vergleich zur menschlichen Leistung. Die Ergebnisse zeigen eine erhebliche Fähigkeitslücke, wobei das beste KI-System nur eine Erfolgsquote von 43,1 % erreicht, verglichen mit einer menschlichen Leistung von 95,7 %. Dies unterstreicht grundlegende Einschränkungen aktueller KI-Systeme bei der Bewältigung gängiger Web-Interaktionsmuster, die für Menschen intuitiv sind. Der Benchmark ist öffentlich unter webgames.convergence.ai verfügbar und bietet eine leichtgewichtige, clientseitige Implementierung, die schnelle Evaluationszyklen ermöglicht. Durch seine modulare Architektur und standardisierten Herausforderungsspezifikationen bietet WebGames eine robuste Grundlage für die Messung von Fortschritten bei der Entwicklung leistungsfähigerer Web-Browsing-Agenten.
English
We introduce WebGames, a comprehensive benchmark suite designed to evaluate
general-purpose web-browsing AI agents through a collection of 50+ interactive
challenges. These challenges are specifically crafted to be straightforward for
humans while systematically testing the limitations of current AI systems
across fundamental browser interactions, advanced input processing, cognitive
tasks, workflow automation, and interactive entertainment. Our framework
eliminates external dependencies through a hermetic testing environment,
ensuring reproducible evaluation with verifiable ground-truth solutions. We
evaluate leading vision-language models including GPT-4o, Claude Computer-Use,
Gemini-1.5-Pro, and Qwen2-VL against human performance. Results reveal a
substantial capability gap, with the best AI system achieving only 43.1%
success rate compared to human performance of 95.7%, highlighting fundamental
limitations in current AI systems' ability to handle common web interaction
patterns that humans find intuitive. The benchmark is publicly available at
webgames.convergence.ai, offering a lightweight, client-side implementation
that facilitates rapid evaluation cycles. Through its modular architecture and
standardized challenge specifications, WebGames provides a robust foundation
for measuring progress in development of more capable web-browsing agents.