OmniGameArena: единый бенчмарк на базе UE5 для VLM игровых агентов с динамикой улучшения

Аннотация

Агенты на основе моделей "зрение-язык" (VLM) всё чаще развёртываются в интерактивных игровых средах. Однако существующие игровые бенчмарки для VLM-агентов, как правило, сообщают единственный показатель первой попытки для каждой пары (агент, игра), ориентируются на одиночный режим Solo и лишены унифицированных протоколов для сопоставимой оценки разнородных классов агентов (коммерческих VLM, VLM с открытым весом и специализированных игровых политик). Мы восполняем эти пробелы с помощью OmniGameArena — бенчмарка реального времени, включающего двенадцать недавно созданных игр на Unreal Engine 5 (семь в режиме Solo, три в PvP и две в Coop) с едиными интерфейсами действий, а также с помощью Кривой динамики улучшений (IDC) — обвязки для агентской рефлексии, в которой LLM-рефлектор, использующий инструменты, автономно уточняет ограниченный по объёму навыковый промпт в течение нескольких раундов. В отличие от показателей лидерборда "холодного старта", IDC предоставляет два дополнительных наблюдаемых параметра для каждой пары (агент, игра): как показатель изменяется по раундам рефлексии и как усвоенный навык ведёт себя на отложенных вариантах задач. Мы сообщаем эти наблюдаемые параметры для двенадцати VLM-агентов на лидерборде "холодного старта" и для четырёх лучших агентов в условиях IDC.

English

Vision-language model (VLM) agents are increasingly deployed in interactive game environments. Yet game benchmarks for VLM agents typically report a single first-attempt score per (agent, game) pair, focus on single-agent Solo play, and lack unified protocols for evaluating heterogeneous agent classes (commercial VLMs, open-weight VLMs, and specialized game policies) on the same footing. We address these gaps with OmniGameArena, a real-time benchmark of twelve newly built Unreal Engine 5 games spanning Solo (7), PvP (3), and Coop (2) with unified action interfaces, and the Improvement Dynamics Curve (IDC), an agentic-reflection harness in which a tool-using reflector LLM autonomously refines a bounded skill prompt across multiple rounds. Beyond cold-start leaderboard scores, IDC exposes two additional observables for each (agent, game) pair: how the score evolves across reflection rounds, and how the learned skill behaves on held-out task variants. We report these observables for twelve VLM agents on the cold-start leaderboard and four top agents under IDC.