Kann der Agent das Web erobern? Erkundung der Grenzen des ChatGPT Atlas Agent in Webbrowserspielen
Can Agent Conquer Web? Exploring the Frontiers of ChatGPT Atlas Agent in Web Games
October 30, 2025
papers.authors: Jingran Zhang, Ning Li, Justin Cui
cs.AI
papers.abstract
OpenAIs ChatGPT Atlas führt neue Fähigkeiten zur Webinteraktion ein, die es dem Modell ermöglichen, Webseiten zu analysieren, Nutzerabsichten zu verarbeiten und Maus- sowie Tastatureingaben direkt im Browser auszuführen. Während seine Fähigkeiten für Informationsbeschaffungsaufgaben bereits demonstriert wurden, ist seine Leistung in dynamischen, interaktiven Umgebungen weniger erforscht. In dieser Studie führen wir eine erste Evaluation der Webinteraktionsfähigkeiten von Atlas anhand von Browserspielen als Testszenarien durch, darunter Google's T-Rex Runner, Sudoku, Flappy Bird und Stein.world. Wir verwenden Spielleistungswerte als quantitative Metriken, um die Leistung über verschiedene Aufgabentypen hinweg zu bewerten. Unsere Ergebnisse zeigen, dass Atlas bei logischen Denkaufgaben wie Sudoku stark abschneidet und Rätsel deutlich schneller löst als menschliche Vergleichswerte, jedoch erhebliche Schwierigkeiten bei Echtzeitspielen mit präzisen Timing- und Motorikanforderungen hat, oft schon an ersten Hindernissen scheitert. Diese Ergebnisse deuten darauf hin, dass Atlas zwar leistungsfähige analytische Verarbeitung demonstriert, aber bemerkenswerte Einschränkungen in dynamischen Webumgebungen mit Echtzeitinteraktionen bestehen. Die Website unseres Projekts ist unter https://atlas-game-eval.github.io zu finden.
English
OpenAI's ChatGPT Atlas introduces new capabilities for web interaction,
enabling the model to analyze webpages, process user intents, and execute
cursor and keyboard inputs directly within the browser. While its capacity for
information retrieval tasks has been demonstrated, its performance in dynamic,
interactive environments remains less explored. In this study, we conduct an
early evaluation of Atlas's web interaction capabilities using browser-based
games as test scenarios, including Google's T-Rex Runner, Sudoku, Flappy Bird,
and Stein.world. We employ in-game performance scores as quantitative metrics
to assess performance across different task types. Our results show that Atlas
performs strongly in logical reasoning tasks like Sudoku, completing puzzles
significantly faster than human baselines, but struggles substantially in
real-time games requiring precise timing and motor control, often failing to
progress beyond initial obstacles. These findings suggest that while Atlas
demonstrates capable analytical processing, there remain notable limitations in
dynamic web environments requiring real-time interaction. The website of our
project can be found at https://atlas-game-eval.github.io.