Может ли агент покорить веб? Исследуя границы возможностей агента ChatGPT Atlas в веб-играх
Can Agent Conquer Web? Exploring the Frontiers of ChatGPT Atlas Agent in Web Games
October 30, 2025
Авторы: Jingran Zhang, Ning Li, Justin Cui
cs.AI
Аннотация
Атлас ChatGPT от OpenAI представляет новые возможности для взаимодействия с вебом, позволяя модели анализировать веб-страницы, обрабатывать пользовательские интенции и выполнять ввод с помощью курсора и клавиатуры непосредственно в браузере. Хотя его способности к задачам информационного поиска были продемонстрированы, производительность в динамичных, интерактивных средах остается малоизученной. В данном исследовании мы проводим раннюю оценку веб-интерактивных возможностей Атласа, используя в качестве тестовых сценариев браузерные игры, включая Google T-Rex Runner, Судоку, Flappy Bird и Stein.world. Мы используем внутриигровые показатели производительности в качестве количественных метрик для оценки результатов в различных типах задач. Наши результаты показывают, что Атлас демонстрирует высокую производительность в задачах логического мышления, таких как Судоку, завершая головоломки значительно быстрее человеческого базового уровня, но испытывает существенные трудности в играх, требующих точного тайминга и моторного контроля, часто неспособный преодолеть даже начальные препятствия. Эти находки свидетельствуют, что, хотя Атлас демонстрирует способности к аналитической обработке, сохраняются заметные ограничения в динамических веб-средах, требующих взаимодействия в реальном времени. Сайт нашего проекта доступен по адресу https://atlas-game-eval.github.io.
English
OpenAI's ChatGPT Atlas introduces new capabilities for web interaction,
enabling the model to analyze webpages, process user intents, and execute
cursor and keyboard inputs directly within the browser. While its capacity for
information retrieval tasks has been demonstrated, its performance in dynamic,
interactive environments remains less explored. In this study, we conduct an
early evaluation of Atlas's web interaction capabilities using browser-based
games as test scenarios, including Google's T-Rex Runner, Sudoku, Flappy Bird,
and Stein.world. We employ in-game performance scores as quantitative metrics
to assess performance across different task types. Our results show that Atlas
performs strongly in logical reasoning tasks like Sudoku, completing puzzles
significantly faster than human baselines, but struggles substantially in
real-time games requiring precise timing and motor control, often failing to
progress beyond initial obstacles. These findings suggest that while Atlas
demonstrates capable analytical processing, there remain notable limitations in
dynamic web environments requiring real-time interaction. The website of our
project can be found at https://atlas-game-eval.github.io.