L'Agente può Conquistare il Web? Esplorando le Frontiere dell'Agente ChatGPT Atlas nei Giochi Web
Can Agent Conquer Web? Exploring the Frontiers of ChatGPT Atlas Agent in Web Games
October 30, 2025
Autori: Jingran Zhang, Ning Li, Justin Cui
cs.AI
Abstract
ChatGPT Atlas di OpenAI introduce nuove capacità di interazione web, consentendo al modello di analizzare pagine web, elaborare le intenzioni dell'utente ed eseguire input di cursore e tastiera direttamente all'interno del browser. Sebbene la sua capacità per compiti di recupero informazioni sia stata dimostrata, le sue prestazioni in ambienti dinamici e interattivi rimangono meno esplorate. In questo studio, conduciamo una valutazione preliminare delle capacità di interazione web di Atlas utilizzando giochi basati su browser come scenari di test, tra cui T-Rex Runner di Google, Sudoku, Flappy Bird e Stein.world. Utilizziamo i punteggi di performance in-game come metriche quantitative per valutare le prestazioni tra diversi tipi di compiti. I nostri risultati mostrano che Atlas ottiene ottimi risultati in compiti di ragionamento logico come il Sudoku, completando i puzzle significativamente più velocemente rispetto ai benchmark umani, ma incontra notevoli difficoltà in giochi in tempo reale che richiedono tempismo preciso e controllo motorio, spesso non riuscendo a superare gli ostacoli iniziali. Questi risultati suggeriscono che, sebbene Atlas dimostri una elaborazione analitica capace, permangono limitazioni significative in ambienti web dinamici che richiedono interazione in tempo reale. Il sito web del nostro progetto è disponibile all'indirizzo https://atlas-game-eval.github.io.
English
OpenAI's ChatGPT Atlas introduces new capabilities for web interaction,
enabling the model to analyze webpages, process user intents, and execute
cursor and keyboard inputs directly within the browser. While its capacity for
information retrieval tasks has been demonstrated, its performance in dynamic,
interactive environments remains less explored. In this study, we conduct an
early evaluation of Atlas's web interaction capabilities using browser-based
games as test scenarios, including Google's T-Rex Runner, Sudoku, Flappy Bird,
and Stein.world. We employ in-game performance scores as quantitative metrics
to assess performance across different task types. Our results show that Atlas
performs strongly in logical reasoning tasks like Sudoku, completing puzzles
significantly faster than human baselines, but struggles substantially in
real-time games requiring precise timing and motor control, often failing to
progress beyond initial obstacles. These findings suggest that while Atlas
demonstrates capable analytical processing, there remain notable limitations in
dynamic web environments requiring real-time interaction. The website of our
project can be found at https://atlas-game-eval.github.io.