ChatPaper.aiChatPaper

¿Puede el Agente Conquistar la Web? Explorando las Fronteras del Agente Atlas de ChatGPT en Juegos Web

Can Agent Conquer Web? Exploring the Frontiers of ChatGPT Atlas Agent in Web Games

October 30, 2025
Autores: Jingran Zhang, Ning Li, Justin Cui
cs.AI

Resumen

El ChatGPT Atlas de OpenAI introduce nuevas capacidades de interacción web, permitiendo al modelo analizar páginas web, procesar intenciones de usuario y ejecutar entradas de cursor y teclado directamente en el navegador. Si bien ha demostrado su capacidad para tareas de recuperación de información, su rendimiento en entornos dinámicos e interactivos sigue estando menos explorado. En este estudio, realizamos una evaluación temprana de las capacidades de interacción web de Atlas utilizando juegos basados en navegador como escenarios de prueba, incluyendo T-Rex Runner de Google, Sudoku, Flappy Bird y Stein.world. Empleamos puntuaciones de rendimiento en el juego como métricas cuantitativas para evaluar el desempeño en diferentes tipos de tareas. Nuestros resultados muestran que Atlas tiene un rendimiento sólido en tareas de razonamiento lógico como Sudoku, completando puzzles significativamente más rápido que los puntos de referencia humanos, pero tiene dificultades considerables en juegos en tiempo real que requieren sincronización precisa y control motor, a menudo sin poder superar los obstáculos iniciales. Estos hallazgos sugieren que, aunque Atlas demuestra un procesamiento analítico competente, persisten limitaciones notables en entornos web dinámicos que requieren interacción en tiempo real. El sitio web de nuestro proyecto puede consultarse en https://atlas-game-eval.github.io.
English
OpenAI's ChatGPT Atlas introduces new capabilities for web interaction, enabling the model to analyze webpages, process user intents, and execute cursor and keyboard inputs directly within the browser. While its capacity for information retrieval tasks has been demonstrated, its performance in dynamic, interactive environments remains less explored. In this study, we conduct an early evaluation of Atlas's web interaction capabilities using browser-based games as test scenarios, including Google's T-Rex Runner, Sudoku, Flappy Bird, and Stein.world. We employ in-game performance scores as quantitative metrics to assess performance across different task types. Our results show that Atlas performs strongly in logical reasoning tasks like Sudoku, completing puzzles significantly faster than human baselines, but struggles substantially in real-time games requiring precise timing and motor control, often failing to progress beyond initial obstacles. These findings suggest that while Atlas demonstrates capable analytical processing, there remain notable limitations in dynamic web environments requiring real-time interaction. The website of our project can be found at https://atlas-game-eval.github.io.
PDF452December 2, 2025