OmniGameArena: Un benchmark UE5 unifié pour les agents de jeu VLM avec dynamiques d'amélioration

Résumé

Les agents basés sur des modèles vision-langage (VLM) sont de plus en plus déployés dans des environnements de jeu interactifs. Pourtant, les benchmarks de jeu pour les agents VLM rapportent généralement un score unique en première tentative par paire (agent, jeu), se concentrent sur le jeu solo à un seul agent, et manquent de protocoles unifiés pour évaluer des classes d'agents hétérogènes (VLM commerciaux, VLM à poids ouverts et politiques de jeu spécialisées) sur un pied d'égalité. Nous comblons ces lacunes avec OmniGameArena, un benchmark en temps réel composé de douze jeux nouvellement construits sous Unreal Engine 5, couvrant le solo (7), le PvP (3) et le coopératif (2) avec des interfaces d'action unifiées, et la courbe de dynamique d'amélioration (Improvement Dynamics Curve, IDC), un harnais de réflexion agentique dans lequel un LLM réflecteur utilisant des outils affine de manière autonome une invite de compétence limitée sur plusieurs tours. Au-delà des scores de leaderboard en démarrage à froid, l'IDC révèle deux observables supplémentaires pour chaque paire (agent, jeu) : comment le score évolue au fil des tours de réflexion, et comment la compétence apprise se comporte sur des variantes de tâches non vues. Nous rapportons ces observables pour douze agents VLM sur le leaderboard en démarrage à froid et pour quatre agents de premier plan sous IDC.

English

Vision-language model (VLM) agents are increasingly deployed in interactive game environments. Yet game benchmarks for VLM agents typically report a single first-attempt score per (agent, game) pair, focus on single-agent Solo play, and lack unified protocols for evaluating heterogeneous agent classes (commercial VLMs, open-weight VLMs, and specialized game policies) on the same footing. We address these gaps with OmniGameArena, a real-time benchmark of twelve newly built Unreal Engine 5 games spanning Solo (7), PvP (3), and Coop (2) with unified action interfaces, and the Improvement Dynamics Curve (IDC), an agentic-reflection harness in which a tool-using reflector LLM autonomously refines a bounded skill prompt across multiple rounds. Beyond cold-start leaderboard scores, IDC exposes two additional observables for each (agent, game) pair: how the score evolves across reflection rounds, and how the learned skill behaves on held-out task variants. We report these observables for twelve VLM agents on the cold-start leaderboard and four top agents under IDC.