ChatPaper.aiChatPaper

WebGames: Desafiando Agentes de IA de Navegação na Web de Propósito Geral

WebGames: Challenging General-Purpose Web-Browsing AI Agents

February 25, 2025
Autores: George Thomas, Alex J. Chan, Jikun Kang, Wenqi Wu, Filippos Christianos, Fraser Greenlee, Andy Toulis, Marvin Purtorab
cs.AI

Resumo

Apresentamos o WebGames, um conjunto abrangente de benchmarks projetado para avaliar agentes de IA de navegação na web de propósito geral por meio de uma coleção de mais de 50 desafios interativos. Esses desafios foram especificamente elaborados para serem simples para humanos, enquanto testam sistematicamente as limitações dos sistemas de IA atuais em interações fundamentais de navegador, processamento avançado de entrada, tarefas cognitivas, automação de fluxos de trabalho e entretenimento interativo. Nosso framework elimina dependências externas por meio de um ambiente de teste hermético, garantindo avaliação reproduzível com soluções de verdade absoluta verificáveis. Avaliamos modelos líderes de visão e linguagem, incluindo GPT-4o, Claude Computer-Use, Gemini-1.5-Pro e Qwen2-VL, em comparação com o desempenho humano. Os resultados revelam uma lacuna substancial de capacidade, com o melhor sistema de IA alcançando apenas 43,1% de taxa de sucesso em comparação com o desempenho humano de 95,7%, destacando limitações fundamentais na capacidade dos sistemas de IA atuais de lidar com padrões comuns de interação na web que os humanos consideram intuitivos. O benchmark está publicamente disponível em webgames.convergence.ai, oferecendo uma implementação leve no lado do cliente que facilita ciclos rápidos de avaliação. Por meio de sua arquitetura modular e especificações padronizadas de desafios, o WebGames fornece uma base robusta para medir o progresso no desenvolvimento de agentes de navegação na web mais capazes.
English
We introduce WebGames, a comprehensive benchmark suite designed to evaluate general-purpose web-browsing AI agents through a collection of 50+ interactive challenges. These challenges are specifically crafted to be straightforward for humans while systematically testing the limitations of current AI systems across fundamental browser interactions, advanced input processing, cognitive tasks, workflow automation, and interactive entertainment. Our framework eliminates external dependencies through a hermetic testing environment, ensuring reproducible evaluation with verifiable ground-truth solutions. We evaluate leading vision-language models including GPT-4o, Claude Computer-Use, Gemini-1.5-Pro, and Qwen2-VL against human performance. Results reveal a substantial capability gap, with the best AI system achieving only 43.1% success rate compared to human performance of 95.7%, highlighting fundamental limitations in current AI systems' ability to handle common web interaction patterns that humans find intuitive. The benchmark is publicly available at webgames.convergence.ai, offering a lightweight, client-side implementation that facilitates rapid evaluation cycles. Through its modular architecture and standardized challenge specifications, WebGames provides a robust foundation for measuring progress in development of more capable web-browsing agents.

Summary

AI-Generated Summary

PDF122February 26, 2025