OmniGameArena: Ein einheitlicher UE5-Benchmark für VLM-Spielagenten mit Verbesserungsdynamiken

Zusammenfassung

Vision-Language-Model (VLM)-Agenten werden zunehmend in interaktiven Spielumgebungen eingesetzt. Spiele-Benchmarks für VLM-Agenten berichten jedoch in der Regel lediglich einen einzigen Erstversuchs-Score pro (Agent, Spiel)-Paar, konzentrieren sich auf das Einzelspieler-Solo und entbehren einheitlicher Protokolle zur Bewertung heterogener Agentenklassen (kommerzielle VLMs, Open-Weight-VLMs und spezialisierte Spielstrategien) auf einer gemeinsamen Grundlage. Wir schließen diese Lücken mit OmniGameArena, einem Echtzeit-Benchmark aus zwölf neu erstellten Unreal-Engine-5-Spielen, die Solo (7), PvP (3) und Koop (2) mit einheitlichen Aktionsschnittstellen abdecken, sowie der Improvement Dynamics Curve (IDC), einem agentischen Reflexionsrahmen, in dem ein werkzeugnutzender Reflektor-LLM einen begrenzten Fähigkeits-Prompt über mehrere Runden hinweg autonom verfeinert. Über die Kaltstart-Bestenliste hinaus liefert die IDC zwei weitere Beobachtungsgrößen für jedes (Agent, Spiel)-Paar: wie sich der Score über die Reflexionsrunden entwickelt und wie die erlernte Fähigkeit auf nicht gehaltene Aufgabenvarianten reagiert. Wir berichten diese Beobachtungsgrößen für zwölf VLM-Agenten auf der Kaltstart-Bestenliste und für vier Top-Agenten unter der IDC.

English

Vision-language model (VLM) agents are increasingly deployed in interactive game environments. Yet game benchmarks for VLM agents typically report a single first-attempt score per (agent, game) pair, focus on single-agent Solo play, and lack unified protocols for evaluating heterogeneous agent classes (commercial VLMs, open-weight VLMs, and specialized game policies) on the same footing. We address these gaps with OmniGameArena, a real-time benchmark of twelve newly built Unreal Engine 5 games spanning Solo (7), PvP (3), and Coop (2) with unified action interfaces, and the Improvement Dynamics Curve (IDC), an agentic-reflection harness in which a tool-using reflector LLM autonomously refines a bounded skill prompt across multiple rounds. Beyond cold-start leaderboard scores, IDC exposes two additional observables for each (agent, game) pair: how the score evolves across reflection rounds, and how the learned skill behaves on held-out task variants. We report these observables for twelve VLM agents on the cold-start leaderboard and four top agents under IDC.