Kan een agent het web veroveren? Verkenning van de frontlinies van de ChatGPT Atlas Agent in webgames.
Can Agent Conquer Web? Exploring the Frontiers of ChatGPT Atlas Agent in Web Games
October 30, 2025
Auteurs: Jingran Zhang, Ning Li, Justin Cui
cs.AI
Samenvatting
OpenAI's ChatGPT Atlas introduceert nieuwe mogelijkheden voor webinteractie, waardoor het model webpagina's kan analyseren, gebruikersintenties kan verwerken en cursor- en toetsenbordinvoer rechtstreeks in de browser kan uitvoeren. Hoewel zijn capaciteit voor informatieverwerkingstaken is aangetoond, blijft zijn prestaties in dynamische, interactieve omgevingen minder onderzocht. In deze studie voeren we een vroege evaluatie uit van Atlas's webinteractiecapaciteiten met behulp van op browsers gebaseerde spellen als testsituaties, waaronder Google's T-Rex Runner, Sudoku, Flappy Bird en Stein.world. We gebruiken in-game prestatiescores als kwantitatieve metrieken om de prestaties bij verschillende taaktypen te beoordelen. Onze resultaten tonen aan dat Atlas sterk presteert in logische redeneertaken zoals Sudoku, waarbij puzzels aanzienlijk sneller worden voltooid dan menselijke referentieniveaus, maar aanzienlijk moeite heeft met realtime spellen die precieze timing en motorische controle vereisen, waarbij het vaak niet lukt om voorbij de eerste obstakels te komen. Deze bevindingen suggereren dat hoewel Atlas capabele analytische verwerking demonstreert, er nog steeds opmerkelijke beperkingen zijn in dynamische webomgevingen die realtime interactie vereisen. De website van ons project is te vinden op https://atlas-game-eval.github.io.
English
OpenAI's ChatGPT Atlas introduces new capabilities for web interaction,
enabling the model to analyze webpages, process user intents, and execute
cursor and keyboard inputs directly within the browser. While its capacity for
information retrieval tasks has been demonstrated, its performance in dynamic,
interactive environments remains less explored. In this study, we conduct an
early evaluation of Atlas's web interaction capabilities using browser-based
games as test scenarios, including Google's T-Rex Runner, Sudoku, Flappy Bird,
and Stein.world. We employ in-game performance scores as quantitative metrics
to assess performance across different task types. Our results show that Atlas
performs strongly in logical reasoning tasks like Sudoku, completing puzzles
significantly faster than human baselines, but struggles substantially in
real-time games requiring precise timing and motor control, often failing to
progress beyond initial obstacles. These findings suggest that while Atlas
demonstrates capable analytical processing, there remain notable limitations in
dynamic web environments requiring real-time interaction. The website of our
project can be found at https://atlas-game-eval.github.io.