ChatPaper.aiChatPaper

에이전트가 웹을 정복할 수 있을까? 웹 게임에서 ChatGPT Atlas 에이전트의 한계 탐구

Can Agent Conquer Web? Exploring the Frontiers of ChatGPT Atlas Agent in Web Games

October 30, 2025
저자: Jingran Zhang, Ning Li, Justin Cui
cs.AI

초록

OpenAI의 ChatGPT Atlas는 웹 상호작용을 위한 새로운 기능을 도입하여, 모델이 웹페이지를 분석하고 사용자 의도를 처리하며 브라우저 내에서 직접 커서 및 키보드 입력을 실행할 수 있게 합니다. 정보 검색 작업에서의 능력은 입증되었으나, 역동적이고 상호작용적인 환경에서의 성능은 아직 덜 탐구된 상태입니다. 본 연구에서는 Google의 T-Rex Runner, Sudoku, Flappy Bird, Stein.world를 포함한 브라우저 기반 게임을 테스트 시나리오로 활용하여 Atlas의 웹 상호작용 능력에 대한 초기 평가를 수행합니다. 게임 내 성적 점수를 정량적 지표로 사용하여 다양한 작업 유형별 성능을 평가했습니다. 결과에 따르면 Atlas는 Sudoku와 같은 논리적 추론 작업에서는 인간 기준점보다 훨씬 빠르게 퍼즐을 완료하며 강력한 성능을 보이지만, 정밀한 타이밍과 운동 제어가 필요한 실시간 게임에서는 상당한 어려움을 겪어 초반 장애물을 넘지 못하는 경우가 많았습니다. 이러한 결과는 Atlas가 분석 처리 능력은 보유하고 있으나, 실시간 상호작용이 필요한 역동적인 웹 환경에서는 여전히 뚜렷한 한계가 있음을 시사합니다. 본 프로젝트 웹사이트는 https://atlas-game-eval.github.io에서 확인할 수 있습니다.
English
OpenAI's ChatGPT Atlas introduces new capabilities for web interaction, enabling the model to analyze webpages, process user intents, and execute cursor and keyboard inputs directly within the browser. While its capacity for information retrieval tasks has been demonstrated, its performance in dynamic, interactive environments remains less explored. In this study, we conduct an early evaluation of Atlas's web interaction capabilities using browser-based games as test scenarios, including Google's T-Rex Runner, Sudoku, Flappy Bird, and Stein.world. We employ in-game performance scores as quantitative metrics to assess performance across different task types. Our results show that Atlas performs strongly in logical reasoning tasks like Sudoku, completing puzzles significantly faster than human baselines, but struggles substantially in real-time games requiring precise timing and motor control, often failing to progress beyond initial obstacles. These findings suggest that while Atlas demonstrates capable analytical processing, there remain notable limitations in dynamic web environments requiring real-time interaction. The website of our project can be found at https://atlas-game-eval.github.io.
PDF452December 2, 2025