L'agent peut-il conquérir le Web ? Exploration des frontières de l'agent Atlas ChatGPT dans les jeux en ligne
Can Agent Conquer Web? Exploring the Frontiers of ChatGPT Atlas Agent in Web Games
October 30, 2025
papers.authors: Jingran Zhang, Ning Li, Justin Cui
cs.AI
papers.abstract
Le ChatGPT Atlas d'OpenAI introduit de nouvelles capacités d'interaction web, permettant au modèle d'analyser des pages web, de traiter les intentions des utilisateurs et d'exécuter des saisies de curseur et de clavier directement dans le navigateur. Bien que ses capacités pour les tâches de recherche d'information aient été démontrées, ses performances dans des environnements dynamiques et interactifs restent peu explorées. Dans cette étude, nous menons une évaluation précoce des capacités d'interaction web d'Atlas en utilisant des jeux en ligne comme scénarios de test, notamment T-Rex Runner de Google, Sudoku, Flappy Bird et Stein.world. Nous utilisons les scores de performance en jeu comme métriques quantitatives pour évaluer les performances sur différents types de tâches. Nos résultats montrent qu'Atlas obtient de fortes performances dans les tâches de raisonnement logique comme le Sudoku, résolvant les grilles nettement plus rapidement que des références humaines, mais éprouve des difficultés considérables dans les jeux en temps réel exigeant un timing précis et un contrôle moteur, échouant souvent à dépasser les premiers obstacles. Ces résultats suggèrent que si Atlas démontre un traitement analytique compétent, il subsiste des limitations notables dans les environnements web dynamiques nécessitant une interaction en temps réel. Le site web de notre projet est disponible à l'adresse https://atlas-game-eval.github.io.
English
OpenAI's ChatGPT Atlas introduces new capabilities for web interaction,
enabling the model to analyze webpages, process user intents, and execute
cursor and keyboard inputs directly within the browser. While its capacity for
information retrieval tasks has been demonstrated, its performance in dynamic,
interactive environments remains less explored. In this study, we conduct an
early evaluation of Atlas's web interaction capabilities using browser-based
games as test scenarios, including Google's T-Rex Runner, Sudoku, Flappy Bird,
and Stein.world. We employ in-game performance scores as quantitative metrics
to assess performance across different task types. Our results show that Atlas
performs strongly in logical reasoning tasks like Sudoku, completing puzzles
significantly faster than human baselines, but struggles substantially in
real-time games requiring precise timing and motor control, often failing to
progress beyond initial obstacles. These findings suggest that while Atlas
demonstrates capable analytical processing, there remain notable limitations in
dynamic web environments requiring real-time interaction. The website of our
project can be found at https://atlas-game-eval.github.io.