ChatPaper.aiChatPaper

WebGames: Sfidare gli agenti AI generici per la navigazione web

WebGames: Challenging General-Purpose Web-Browsing AI Agents

February 25, 2025
Autori: George Thomas, Alex J. Chan, Jikun Kang, Wenqi Wu, Filippos Christianos, Fraser Greenlee, Andy Toulis, Marvin Purtorab
cs.AI

Abstract

Introduciamo WebGames, una suite di benchmark completa progettata per valutare agenti AI generici per la navigazione web attraverso una raccolta di oltre 50 sfide interattive. Queste sfide sono state specificamente create per essere semplici per gli esseri umani, mentre testano sistematicamente i limiti degli attuali sistemi di AI in termini di interazioni di base con il browser, elaborazione avanzata degli input, compiti cognitivi, automazione dei flussi di lavoro e intrattenimento interattivo. Il nostro framework elimina le dipendenze esterne attraverso un ambiente di test ermetico, garantendo una valutazione riproducibile con soluzioni di riferimento verificabili. Valutiamo i principali modelli visione-linguaggio, tra cui GPT-4o, Claude Computer-Use, Gemini-1.5-Pro e Qwen2-VL, confrontandoli con le prestazioni umane. I risultati rivelano un divario significativo nelle capacità, con il miglior sistema AI che raggiunge solo un tasso di successo del 43,1% rispetto al 95,7% delle prestazioni umane, evidenziando limitazioni fondamentali nell'abilità degli attuali sistemi AI di gestire modelli di interazione web che gli esseri umani trovano intuitivi. Il benchmark è disponibile pubblicamente su webgames.convergence.ai, offrendo un'implementazione leggera lato client che facilita cicli di valutazione rapidi. Grazie alla sua architettura modulare e alle specifiche standardizzate delle sfide, WebGames fornisce una solida base per misurare i progressi nello sviluppo di agenti di navigazione web più capaci.
English
We introduce WebGames, a comprehensive benchmark suite designed to evaluate general-purpose web-browsing AI agents through a collection of 50+ interactive challenges. These challenges are specifically crafted to be straightforward for humans while systematically testing the limitations of current AI systems across fundamental browser interactions, advanced input processing, cognitive tasks, workflow automation, and interactive entertainment. Our framework eliminates external dependencies through a hermetic testing environment, ensuring reproducible evaluation with verifiable ground-truth solutions. We evaluate leading vision-language models including GPT-4o, Claude Computer-Use, Gemini-1.5-Pro, and Qwen2-VL against human performance. Results reveal a substantial capability gap, with the best AI system achieving only 43.1% success rate compared to human performance of 95.7%, highlighting fundamental limitations in current AI systems' ability to handle common web interaction patterns that humans find intuitive. The benchmark is publicly available at webgames.convergence.ai, offering a lightweight, client-side implementation that facilitates rapid evaluation cycles. Through its modular architecture and standardized challenge specifications, WebGames provides a robust foundation for measuring progress in development of more capable web-browsing agents.
PDF132February 26, 2025