ChatPaper.aiChatPaper

エージェントはWebを征服できるか?WebゲームにおけるChatGPT Atlasエージェントの可能性を探る

Can Agent Conquer Web? Exploring the Frontiers of ChatGPT Atlas Agent in Web Games

October 30, 2025
著者: Jingran Zhang, Ning Li, Justin Cui
cs.AI

要旨

OpenAIのChatGPT Atlasは、ウェブインタラクションの新機能を導入し、モデルがウェブページを分析し、ユーザーの意図を処理し、ブラウザ内で直接カーソルおよびキーボード入力を実行できるようにしました。情報検索タスクにおける能力は実証されているものの、動的で対話的な環境でのパフォーマンスは未だ十分に検証されていません。本研究では、ブラウザベースのゲーム(GoogleのT-Rex Runner、数独、Flappy Bird、Stein.worldなど)をテストシナリオとして用い、Atlasのウェブインタラクション能力に関する初期評価を実施します。ゲーム内のパフォーマンススコアを定量的指標として活用し、異なるタスク種別間でのパフォーマンスを評価しました。結果によると、Atlasは数独のような論理的推論タスクでは強力なパフォーマンスを発揮し、人間の基準値を大幅に上回る速度でパズルを完了する一方、精密なタイミングと運動制御を要するリアルタイムゲームでは著しく困難を示し、初期障害を超えて進めないケースが多発しました。これらの知見は、Atlasが優れた分析処理能力を示すものの、リアルタイムインタラクションを必要とする動的ウェブ環境には顕著な限界が残されていることを示唆しています。本プロジェクトのウェブサイトはhttps://atlas-game-eval.github.ioで公開されています。
English
OpenAI's ChatGPT Atlas introduces new capabilities for web interaction, enabling the model to analyze webpages, process user intents, and execute cursor and keyboard inputs directly within the browser. While its capacity for information retrieval tasks has been demonstrated, its performance in dynamic, interactive environments remains less explored. In this study, we conduct an early evaluation of Atlas's web interaction capabilities using browser-based games as test scenarios, including Google's T-Rex Runner, Sudoku, Flappy Bird, and Stein.world. We employ in-game performance scores as quantitative metrics to assess performance across different task types. Our results show that Atlas performs strongly in logical reasoning tasks like Sudoku, completing puzzles significantly faster than human baselines, but struggles substantially in real-time games requiring precise timing and motor control, often failing to progress beyond initial obstacles. These findings suggest that while Atlas demonstrates capable analytical processing, there remain notable limitations in dynamic web environments requiring real-time interaction. The website of our project can be found at https://atlas-game-eval.github.io.
PDF452December 2, 2025