Um Agente Pode Conquistar a Web? Explorando as Fronteiras do Atlas Agent do ChatGPT em Jogos Web
Can Agent Conquer Web? Exploring the Frontiers of ChatGPT Atlas Agent in Web Games
October 30, 2025
Autores: Jingran Zhang, Ning Li, Justin Cui
cs.AI
Resumo
O ChatGPT Atlas da OpenAI introduz novas capacidades de interação web, permitindo que o modelo analise páginas da web, processe intenções do usuário e execute entradas de cursor e teclado diretamente no navegador. Embora sua capacidade para tarefas de recuperação de informação tenha sido demonstrada, seu desempenho em ambientes dinâmicos e interativos permanece menos explorado. Neste estudo, realizamos uma avaliação preliminar das capacidades de interação web do Atlas usando jogos baseados em navegador como cenários de teste, incluindo o T-Rex Runner do Google, Sudoku, Flappy Bird e Stein.world. Empregamos pontuações de desempenho no jogo como métricas quantitativas para avaliar o desempenho em diferentes tipos de tarefas. Nossos resultados mostram que o Atlas tem um desempenho forte em tarefas de raciocínio lógico como Sudoku, completando quebra-cabeças significativamente mais rápido que baselines humanos, mas tem dificuldades substanciais em jogos em tempo real que exigem temporização precisa e controle motor, frequentemente falhando em progredir além dos obstáculos iniciais. Essas descobertas sugerem que, embora o Atlas demonstre processamento analítico competente, ainda existem limitações notáveis em ambientes web dinâmicos que exigem interação em tempo real. O website do nosso projeto pode ser encontrado em https://atlas-game-eval.github.io.
English
OpenAI's ChatGPT Atlas introduces new capabilities for web interaction,
enabling the model to analyze webpages, process user intents, and execute
cursor and keyboard inputs directly within the browser. While its capacity for
information retrieval tasks has been demonstrated, its performance in dynamic,
interactive environments remains less explored. In this study, we conduct an
early evaluation of Atlas's web interaction capabilities using browser-based
games as test scenarios, including Google's T-Rex Runner, Sudoku, Flappy Bird,
and Stein.world. We employ in-game performance scores as quantitative metrics
to assess performance across different task types. Our results show that Atlas
performs strongly in logical reasoning tasks like Sudoku, completing puzzles
significantly faster than human baselines, but struggles substantially in
real-time games requiring precise timing and motor control, often failing to
progress beyond initial obstacles. These findings suggest that while Atlas
demonstrates capable analytical processing, there remain notable limitations in
dynamic web environments requiring real-time interaction. The website of our
project can be found at https://atlas-game-eval.github.io.