OmniGameArena: Um Benchmark Unificado em UE5 para Agentes de Jogo VLM com Dinâmicas de Melhoria

Resumo

Modelos de linguagem-visão (VLM) estão cada vez mais implantados em ambientes de jogos interativos. No entanto, os benchmarks de jogos para agentes VLM geralmente relatam uma única pontuação de primeira tentativa por par (agente, jogo), focam em jogos individuais no modo Solo e carecem de protocolos unificados para avaliar classes heterogêneas de agentes (VLMs comerciais, VLMs de pesos abertos e políticas de jogo especializadas) em pé de igualdade. Abordamos essas lacunas com o OmniGameArena, um benchmark em tempo real composto por doze novos jogos desenvolvidos na Unreal Engine 5, abrangendo modos Solo (7), PvP (3) e Cooperativo (2), com interfaces de ação unificadas, e a Curva de Dinâmica de Melhoria (IDC), um arcabouço de reflexão agentiva no qual um LLM refletor que utiliza ferramentas refina autonomamente um prompt de habilidade limitado ao longo de múltiplas rodadas. Além das pontuações iniciais de leaderboard, a IDC expõe duas observáveis adicionais para cada par (agente, jogo): como a pontuação evolui ao longo das rodadas de reflexão e como a habilidade aprendida se comporta em variantes de tarefas não vistas. Relatamos essas observáveis para doze agentes VLM no leaderboard inicial e para os quatro melhores agentes sob a IDC.

English

Vision-language model (VLM) agents are increasingly deployed in interactive game environments. Yet game benchmarks for VLM agents typically report a single first-attempt score per (agent, game) pair, focus on single-agent Solo play, and lack unified protocols for evaluating heterogeneous agent classes (commercial VLMs, open-weight VLMs, and specialized game policies) on the same footing. We address these gaps with OmniGameArena, a real-time benchmark of twelve newly built Unreal Engine 5 games spanning Solo (7), PvP (3), and Coop (2) with unified action interfaces, and the Improvement Dynamics Curve (IDC), an agentic-reflection harness in which a tool-using reflector LLM autonomously refines a bounded skill prompt across multiple rounds. Beyond cold-start leaderboard scores, IDC exposes two additional observables for each (agent, game) pair: how the score evolves across reflection rounds, and how the learned skill behaves on held-out task variants. We report these observables for twelve VLM agents on the cold-start leaderboard and four top agents under IDC.