ChatPaper.aiChatPaper

OmniGameArena: 改善ダイナミクスを備えたVLMゲームエージェントのための統合UE5ベンチマーク

OmniGameArena: A Unified UE5 Benchmark for VLM Game Agents with Improvement Dynamics

June 8, 2026
著者: Mingxian Lin, Shengju Qian, Yuqi Liu, Yi-Hua Huang, Yiyu Wang, Wei Huang, Yitang Li, Fan Zhang, Zeyu Hu, Lingting Zhu, Xin Wang, Xiaojuan Qi
cs.AI

要旨

視覚言語モデル(VLM)エージェントは、インタラクティブなゲーム環境にますます多く導入されている。しかし、VLMエージェント向けのゲームベンチマークでは、通常、(エージェント、ゲーム)ペアごとに単一の初回試行スコアのみが報告され、単一エージェントのソロプレイに焦点が当てられており、異種エージェントクラス(商用VLM、オープンウェイトVLM、特殊ゲームポリシー)を同一基準で評価するための統一プロトコルが欠如している。我々は、これらのギャップに対処するため、統一アクションインターフェースを備えた新たに構築した12のUnreal Engine 5ゲーム(ソロ7、PvP 3、Coop 2)からなるリアルタイムベンチマーク「OmniGameArena」と、エージェントの内省的ハーネスである「Improvement Dynamics Curve(IDC)」を提案する。IDCでは、ツールを使用するリフレクターLLMが、制限付きスキルプロンプトを複数ラウンドにわたって自律的に洗練する。コールドスタートのリーダーボードスコアに加えて、IDCは(エージェント、ゲーム)ペアごとに2つの追加観測量を明らかにする。すなわち、内省ラウンド全体でのスコアの推移と、学習されたスキルが未見のタスクバリアントでどのように振る舞うかである。我々は、12のVLMエージェントについてコールドスタートリーダーボードにおけるこれらの観測量を報告し、IDC下でのトップ4エージェントについても報告する。
English
Vision-language model (VLM) agents are increasingly deployed in interactive game environments. Yet game benchmarks for VLM agents typically report a single first-attempt score per (agent, game) pair, focus on single-agent Solo play, and lack unified protocols for evaluating heterogeneous agent classes (commercial VLMs, open-weight VLMs, and specialized game policies) on the same footing. We address these gaps with OmniGameArena, a real-time benchmark of twelve newly built Unreal Engine 5 games spanning Solo (7), PvP (3), and Coop (2) with unified action interfaces, and the Improvement Dynamics Curve (IDC), an agentic-reflection harness in which a tool-using reflector LLM autonomously refines a bounded skill prompt across multiple rounds. Beyond cold-start leaderboard scores, IDC exposes two additional observables for each (agent, game) pair: how the score evolves across reflection rounds, and how the learned skill behaves on held-out task variants. We report these observables for twelve VLM agents on the cold-start leaderboard and four top agents under IDC.