OmniGameArena: Un Benchmark Unificado en UE5 para Agentes de Juego VLM con Dinámicas de Mejora

Resumen

Los agentes de modelos de visión-lenguaje (VLM) se implementan cada vez más en entornos de juego interactivos. Sin embargo, los benchmarks de juegos para agentes VLM normalmente reportan una única puntuación de primer intento por par (agente, juego), se centran en el juego individual (Solo) de un solo agente y carecen de protocolos unificados para evaluar clases heterogéneas de agentes (VLM comerciales, VLM de peso abierto y políticas de juego especializadas) en igualdad de condiciones. Abordamos estas brechas con OmniGameArena, un benchmark en tiempo real de doce nuevos juegos construidos en Unreal Engine 5 que abarcan Solo (7), PvP (3) y Cooperativo (2) con interfaces de acción unificadas, y la Curva de Dinámica de Mejora (IDC), un arnés de reflexión agentiva en el que un LLM reflector que utiliza herramientas refina de forma autónoma un prompt de habilidad acotado a lo largo de múltiples rondas. Más allá de las puntuaciones iniciales (cold-start) en la tabla de clasificación, el IDC expone dos observables adicionales para cada par (agente, juego): cómo evoluciona la puntuación a lo largo de las rondas de reflexión y cómo se comporta la habilidad aprendida en variantes de tarea no vistas. Reportamos estos observables para doce agentes VLM en la tabla de clasificación cold-start y para cuatro agentes principales bajo IDC.

English

Vision-language model (VLM) agents are increasingly deployed in interactive game environments. Yet game benchmarks for VLM agents typically report a single first-attempt score per (agent, game) pair, focus on single-agent Solo play, and lack unified protocols for evaluating heterogeneous agent classes (commercial VLMs, open-weight VLMs, and specialized game policies) on the same footing. We address these gaps with OmniGameArena, a real-time benchmark of twelve newly built Unreal Engine 5 games spanning Solo (7), PvP (3), and Coop (2) with unified action interfaces, and the Improvement Dynamics Curve (IDC), an agentic-reflection harness in which a tool-using reflector LLM autonomously refines a bounded skill prompt across multiple rounds. Beyond cold-start leaderboard scores, IDC exposes two additional observables for each (agent, game) pair: how the score evolves across reflection rounds, and how the learned skill behaves on held-out task variants. We report these observables for twelve VLM agents on the cold-start leaderboard and four top agents under IDC.