WebGames : Mettre à l'épreuve les agents d'intelligence artificielle généralistes pour la navigation web

papers.abstract

Nous présentons WebGames, une suite de benchmarks complète conçue pour évaluer les agents d'intelligence artificielle généralistes de navigation web à travers une collection de plus de 50 défis interactifs. Ces défis sont spécifiquement élaborés pour être simples pour les humains tout en testant systématiquement les limites des systèmes d'IA actuels dans les interactions fondamentales avec le navigateur, le traitement avancé des entrées, les tâches cognitives, l'automatisation des workflows et le divertissement interactif. Notre framework élimine les dépendances externes grâce à un environnement de test hermétique, garantissant une évaluation reproductible avec des solutions de référence vérifiables. Nous évaluons les principaux modèles vision-langage, notamment GPT-4o, Claude Computer-Use, Gemini-1.5-Pro et Qwen2-VL, en les comparant aux performances humaines. Les résultats révèlent un écart de capacités significatif, avec le meilleur système d'IA atteignant seulement un taux de réussite de 43,1 % contre 95,7 % pour les humains, mettant en lumière les limitations fondamentales des systèmes d'IA actuels à gérer les schémas d'interaction web courants que les humains trouvent intuitifs. Le benchmark est disponible publiquement à l'adresse webgames.convergence.ai, offrant une implémentation légère côté client qui facilite des cycles d'évaluation rapides. Grâce à son architecture modulaire et à ses spécifications de défis standardisées, WebGames fournit une base robuste pour mesurer les progrès dans le développement d'agents de navigation web plus performants.

English

We introduce WebGames, a comprehensive benchmark suite designed to evaluate general-purpose web-browsing AI agents through a collection of 50+ interactive challenges. These challenges are specifically crafted to be straightforward for humans while systematically testing the limitations of current AI systems across fundamental browser interactions, advanced input processing, cognitive tasks, workflow automation, and interactive entertainment. Our framework eliminates external dependencies through a hermetic testing environment, ensuring reproducible evaluation with verifiable ground-truth solutions. We evaluate leading vision-language models including GPT-4o, Claude Computer-Use, Gemini-1.5-Pro, and Qwen2-VL against human performance. Results reveal a substantial capability gap, with the best AI system achieving only 43.1% success rate compared to human performance of 95.7%, highlighting fundamental limitations in current AI systems' ability to handle common web interaction patterns that humans find intuitive. The benchmark is publicly available at webgames.convergence.ai, offering a lightweight, client-side implementation that facilitates rapid evaluation cycles. Through its modular architecture and standardized challenge specifications, WebGames provides a robust foundation for measuring progress in development of more capable web-browsing agents.

WebGames : Mettre à l'épreuve les agents d'intelligence artificielle généralistes pour la navigation web

WebGames: Challenging General-Purpose Web-Browsing AI Agents

papers.abstract

Support