OmniGameArena: VLM 게임 에이전트를 위한 향상 역학을 갖춘 통합 UE5 벤치마크
OmniGameArena: A Unified UE5 Benchmark for VLM Game Agents with Improvement Dynamics
June 8, 2026
저자: Mingxian Lin, Shengju Qian, Yuqi Liu, Yi-Hua Huang, Yiyu Wang, Wei Huang, Yitang Li, Fan Zhang, Zeyu Hu, Lingting Zhu, Xin Wang, Xiaojuan Qi
cs.AI
초록
시각-언어 모델(VLM) 에이전트가 대화형 게임 환경에 점점 더 많이 배치되고 있다. 하지만 VLM 에이전트를 위한 게임 벤치마크는 일반적으로 (에이전트, 게임) 쌍당 단일 첫 시도 점수만 보고하고, 단일 에이전트 솔로 플레이에 초점을 맞추며, 이질적인 에이전트 클래스(상용 VLM, 오픈 가중치 VLM, 특수 게임 정책)를 동일한 기준에서 평가하기 위한 통일된 프로토콜이 부족하다. 우리는 이러한 격차를 해소하기 위해 OmniGameArena(통합 행동 인터페이스를 갖춘 솔로 7개, PvP 3개, 협동 2개로 구성된 12개의 새로 구축된 Unreal Engine 5 게임의 실시간 벤치마크)와 IDC(개선 역동성 곡선)를 제안한다. IDC는 도구를 사용하는 반영(reflector) LLM이 제한된 스킬 프롬프트를 여러 라운드에 걸쳐 자율적으로 개선하는 에이전트적 반성(agentic-reflection) 하네스이다. 콜드 스타트 리더보드 점수 외에도, IDC는 각 (에이전트, 게임) 쌍에 대해 두 가지 추가 관측 가능 변수를 노출한다: 반성 라운드에 걸쳐 점수가 어떻게 진화하는지, 학습된 스킬이 보류된 과제 변형에서 어떻게 동작하는지. 우리는 콜드 스타트 리더보드에서 12개의 VLM 에이전트와 IDC 하에서의 4개의 최상위 에이전트에 대한 이러한 관측 가능 변수를 보고한다.
English
Vision-language model (VLM) agents are increasingly deployed in interactive game environments. Yet game benchmarks for VLM agents typically report a single first-attempt score per (agent, game) pair, focus on single-agent Solo play, and lack unified protocols for evaluating heterogeneous agent classes (commercial VLMs, open-weight VLMs, and specialized game policies) on the same footing. We address these gaps with OmniGameArena, a real-time benchmark of twelve newly built Unreal Engine 5 games spanning Solo (7), PvP (3), and Coop (2) with unified action interfaces, and the Improvement Dynamics Curve (IDC), an agentic-reflection harness in which a tool-using reflector LLM autonomously refines a bounded skill prompt across multiple rounds. Beyond cold-start leaderboard scores, IDC exposes two additional observables for each (agent, game) pair: how the score evolves across reflection rounds, and how the learned skill behaves on held-out task variants. We report these observables for twelve VLM agents on the cold-start leaderboard and four top agents under IDC.