WebGames : Mettre à l'épreuve les agents d'intelligence artificielle généralistes pour la navigation web
WebGames: Challenging General-Purpose Web-Browsing AI Agents
February 25, 2025
Auteurs: George Thomas, Alex J. Chan, Jikun Kang, Wenqi Wu, Filippos Christianos, Fraser Greenlee, Andy Toulis, Marvin Purtorab
cs.AI
Résumé
Nous présentons WebGames, une suite de benchmarks complète conçue pour évaluer les agents d'intelligence artificielle généralistes de navigation web à travers une collection de plus de 50 défis interactifs. Ces défis sont spécifiquement élaborés pour être simples pour les humains tout en testant systématiquement les limites des systèmes d'IA actuels dans les interactions fondamentales avec le navigateur, le traitement avancé des entrées, les tâches cognitives, l'automatisation des workflows et le divertissement interactif. Notre framework élimine les dépendances externes grâce à un environnement de test hermétique, garantissant une évaluation reproductible avec des solutions de référence vérifiables. Nous évaluons les principaux modèles vision-langage, notamment GPT-4o, Claude Computer-Use, Gemini-1.5-Pro et Qwen2-VL, en les comparant aux performances humaines. Les résultats révèlent un écart de capacités significatif, avec le meilleur système d'IA atteignant seulement un taux de réussite de 43,1 % contre 95,7 % pour les humains, mettant en lumière les limitations fondamentales des systèmes d'IA actuels à gérer les schémas d'interaction web courants que les humains trouvent intuitifs. Le benchmark est disponible publiquement à l'adresse webgames.convergence.ai, offrant une implémentation légère côté client qui facilite des cycles d'évaluation rapides. Grâce à son architecture modulaire et à ses spécifications de défis standardisées, WebGames fournit une base robuste pour mesurer les progrès dans le développement d'agents de navigation web plus performants.
English
We introduce WebGames, a comprehensive benchmark suite designed to evaluate
general-purpose web-browsing AI agents through a collection of 50+ interactive
challenges. These challenges are specifically crafted to be straightforward for
humans while systematically testing the limitations of current AI systems
across fundamental browser interactions, advanced input processing, cognitive
tasks, workflow automation, and interactive entertainment. Our framework
eliminates external dependencies through a hermetic testing environment,
ensuring reproducible evaluation with verifiable ground-truth solutions. We
evaluate leading vision-language models including GPT-4o, Claude Computer-Use,
Gemini-1.5-Pro, and Qwen2-VL against human performance. Results reveal a
substantial capability gap, with the best AI system achieving only 43.1%
success rate compared to human performance of 95.7%, highlighting fundamental
limitations in current AI systems' ability to handle common web interaction
patterns that humans find intuitive. The benchmark is publicly available at
webgames.convergence.ai, offering a lightweight, client-side implementation
that facilitates rapid evaluation cycles. Through its modular architecture and
standardized challenge specifications, WebGames provides a robust foundation
for measuring progress in development of more capable web-browsing agents.Summary
AI-Generated Summary