OmniGameArena: een uniforme UE5-benchmark voor VLM-spelagenten met verbeteringsdynamiek

Samenvatting

Visie-taalmodellen (VLM's) worden als agenten steeds vaker ingezet in interactieve spelomgevingen. Echter, game-benchmarks voor VLM-agenten rapporteren doorgaans slechts één score per (agent, game)-paar van de eerste poging, richten zich op single-agent solo-spel, en missen uniforme protocollen voor het evalueren van heterogene agentklassen (commerciële VLM's, open-gewicht VLM's en gespecialiseerde spelbeleidsregels) op gelijke voet. We vullen deze hiaten met OmniGameArena, een real-time benchmark van twaalf nieuw gebouwde Unreal Engine 5-games, variërend van solo (7), PvP (3) en coöperatief (2) met uniforme actie-interfaces, en de Improvement Dynamics Curve (IDC), een agentische-reflectie-harnas waarin een tool-gebruikende reflector-LLM autonoom een begrensd vaardigheidsprompt verfijnt over meerdere rondes. Naast koude-start-klassementscores onthult IDC twee extra waarneembare grootheden voor elk (agent, game)-paar: hoe de score evolueert over reflectierondes, en hoe de geleerde vaardigheid zich gedraagt op achtergehouden taakvarianten. We rapporteren deze waarneembare grootheden voor twaalf VLM-agenten op het koude-start-klassement en vier topagenten onder IDC.

English

Vision-language model (VLM) agents are increasingly deployed in interactive game environments. Yet game benchmarks for VLM agents typically report a single first-attempt score per (agent, game) pair, focus on single-agent Solo play, and lack unified protocols for evaluating heterogeneous agent classes (commercial VLMs, open-weight VLMs, and specialized game policies) on the same footing. We address these gaps with OmniGameArena, a real-time benchmark of twelve newly built Unreal Engine 5 games spanning Solo (7), PvP (3), and Coop (2) with unified action interfaces, and the Improvement Dynamics Curve (IDC), an agentic-reflection harness in which a tool-using reflector LLM autonomously refines a bounded skill prompt across multiple rounds. Beyond cold-start leaderboard scores, IDC exposes two additional observables for each (agent, game) pair: how the score evolves across reflection rounds, and how the learned skill behaves on held-out task variants. We report these observables for twelve VLM agents on the cold-start leaderboard and four top agents under IDC.