ChatPaper.aiChatPaper

WebGames: Desafiando a los agentes de IA de navegación web de propósito general

WebGames: Challenging General-Purpose Web-Browsing AI Agents

February 25, 2025
Autores: George Thomas, Alex J. Chan, Jikun Kang, Wenqi Wu, Filippos Christianos, Fraser Greenlee, Andy Toulis, Marvin Purtorab
cs.AI

Resumen

Presentamos WebGames, un conjunto de benchmarks integral diseñado para evaluar agentes de IA de navegación web de propósito general a través de una colección de más de 50 desafíos interactivos. Estos desafíos están específicamente diseñados para ser sencillos para los humanos, mientras ponen a prueba sistemáticamente las limitaciones de los sistemas de IA actuales en interacciones fundamentales del navegador, procesamiento avanzado de entradas, tareas cognitivas, automatización de flujos de trabajo y entretenimiento interactivo. Nuestro marco elimina dependencias externas mediante un entorno de pruebas hermético, asegurando una evaluación reproducible con soluciones de referencia verificables. Evaluamos modelos líderes de visión y lenguaje, incluyendo GPT-4o, Claude Computer-Use, Gemini-1.5-Pro y Qwen2-VL, comparándolos con el rendimiento humano. Los resultados revelan una brecha sustancial en las capacidades, con el mejor sistema de IA logrando solo un 43.1% de tasa de éxito en comparación con el 95.7% del rendimiento humano, destacando limitaciones fundamentales en la capacidad de los sistemas de IA actuales para manejar patrones comunes de interacción web que los humanos encuentran intuitivos. El benchmark está disponible públicamente en webgames.convergence.ai, ofreciendo una implementación ligera del lado del cliente que facilita ciclos de evaluación rápidos. Gracias a su arquitectura modular y especificaciones estandarizadas de desafíos, WebGames proporciona una base sólida para medir el progreso en el desarrollo de agentes de navegación web más capaces.
English
We introduce WebGames, a comprehensive benchmark suite designed to evaluate general-purpose web-browsing AI agents through a collection of 50+ interactive challenges. These challenges are specifically crafted to be straightforward for humans while systematically testing the limitations of current AI systems across fundamental browser interactions, advanced input processing, cognitive tasks, workflow automation, and interactive entertainment. Our framework eliminates external dependencies through a hermetic testing environment, ensuring reproducible evaluation with verifiable ground-truth solutions. We evaluate leading vision-language models including GPT-4o, Claude Computer-Use, Gemini-1.5-Pro, and Qwen2-VL against human performance. Results reveal a substantial capability gap, with the best AI system achieving only 43.1% success rate compared to human performance of 95.7%, highlighting fundamental limitations in current AI systems' ability to handle common web interaction patterns that humans find intuitive. The benchmark is publicly available at webgames.convergence.ai, offering a lightweight, client-side implementation that facilitates rapid evaluation cycles. Through its modular architecture and standardized challenge specifications, WebGames provides a robust foundation for measuring progress in development of more capable web-browsing agents.

Summary

AI-Generated Summary

PDF122February 26, 2025