ChatPaper.aiChatPaper

WebGames: 범용 웹 브라우징 AI 에이전트에 대한 도전

WebGames: Challenging General-Purpose Web-Browsing AI Agents

February 25, 2025
저자: George Thomas, Alex J. Chan, Jikun Kang, Wenqi Wu, Filippos Christianos, Fraser Greenlee, Andy Toulis, Marvin Purtorab
cs.AI

초록

우리는 50개 이상의 인터랙티브 과제로 구성된 종합 벤치마크 제품군인 WebGames를 소개합니다. 이 과제들은 인간에게는 간단하지만, 기본적인 브라우저 상호작용, 고급 입력 처리, 인지 작업, 워크플로 자동화, 인터랙티브 엔터테인먼트 등 다양한 영역에서 현재 AI 시스템의 한계를 체계적으로 테스트하도록 설계되었습니다. 우리의 프레임워크는 외부 의존성을 제거한 밀폐된 테스트 환경을 통해 검증 가능한 정답을 보장하며 재현 가능한 평가를 제공합니다. GPT-4o, Claude Computer-Use, Gemini-1.5-Pro, Qwen2-VL 등 주요 시각-언어 모델을 인간 성능과 비교 평가했습니다. 결과는 현재 AI 시스템이 인간이 직관적으로 처리하는 일반적인 웹 상호작용 패턴을 다루는 데 있어 근본적인 한계를 보여주며, 최고의 AI 시스템도 43.1%의 성공률을 기록한 반면 인간은 95.7%의 성공률을 달성했습니다. 이 벤치마크는 webgames.convergence.ai에서 공개적으로 제공되며, 클라이언트 측에서 가볍게 구현되어 빠른 평가 주기를 지원합니다. 모듈식 아키텍처와 표준화된 과제 명세를 통해 WebGames는 더 능력 있는 웹 브라우징 에이전트 개발의 진전을 측정할 수 있는 견고한 기반을 제공합니다.
English
We introduce WebGames, a comprehensive benchmark suite designed to evaluate general-purpose web-browsing AI agents through a collection of 50+ interactive challenges. These challenges are specifically crafted to be straightforward for humans while systematically testing the limitations of current AI systems across fundamental browser interactions, advanced input processing, cognitive tasks, workflow automation, and interactive entertainment. Our framework eliminates external dependencies through a hermetic testing environment, ensuring reproducible evaluation with verifiable ground-truth solutions. We evaluate leading vision-language models including GPT-4o, Claude Computer-Use, Gemini-1.5-Pro, and Qwen2-VL against human performance. Results reveal a substantial capability gap, with the best AI system achieving only 43.1% success rate compared to human performance of 95.7%, highlighting fundamental limitations in current AI systems' ability to handle common web interaction patterns that humans find intuitive. The benchmark is publicly available at webgames.convergence.ai, offering a lightweight, client-side implementation that facilitates rapid evaluation cycles. Through its modular architecture and standardized challenge specifications, WebGames provides a robust foundation for measuring progress in development of more capable web-browsing agents.

Summary

AI-Generated Summary

PDF122February 26, 2025