V-MAGE: Фреймворк для оценки игр, направленный на анализ визуально-ориентированных возможностей мультимодальных больших языковых моделей

Аннотация

Последние достижения в области мультимодальных больших языковых моделей (MLLMs) привели к значительным улучшениям в различных мультимодальных тестах. Однако, по мере того как оценка смещается от статических наборов данных к открытым, динамическим средам, текущие игровые тесты остаются недостаточными, поскольку они не включают визуально-ориентированные задачи и не оценивают разнообразные навыки рассуждения, необходимые для принятия решений в реальном мире. Для решения этой проблемы мы представляем Visual-centric Multiple Abilities Game Evaluation (V-MAGE) — игровую оценочную платформу, разработанную для проверки визуальных способностей рассуждения MLLMs. V-MAGE включает пять разнообразных игр с более чем 30 тщательно разработанными уровнями, тестирующими модели на ключевых визуальных навыках, таких как позиционирование, отслеживание траекторий, тайминг и визуальная память, а также на более сложных навыках рассуждения, таких как долгосрочное планирование и обдумывание. Мы используем V-MAGE для оценки ведущих MLLMs, выявляя значительные трудности в их визуальном восприятии и рассуждении. Во всех игровых средах лучшие MLLMs, определенные по рейтингу Elo, демонстрируют существенный разрыв в производительности по сравнению с людьми. Наши результаты подчеркивают критические ограничения, включая различные типы ошибок восприятия, допущенные моделями, и предлагают потенциальные пути улучшения с точки зрения агент-центрированного подхода, такие как уточнение стратегий агентов и устранение неточностей восприятия. Код доступен по адресу https://github.com/CSU-JPG/V-MAGE.

English

Recent advancements in Multimodal Large Language Models (MLLMs) have led to significant improvements across various multimodal benchmarks. However, as evaluations shift from static datasets to open-world, dynamic environments, current game-based benchmarks remain inadequate because they lack visual-centric tasks and fail to assess the diverse reasoning skills required for real-world decision-making. To address this, we introduce Visual-centric Multiple Abilities Game Evaluation (V-MAGE), a game-based evaluation framework designed to assess visual reasoning capabilities of MLLMs. V-MAGE features five diverse games with 30+ handcrafted levels, testing models on core visual skills such as positioning, trajectory tracking, timing, and visual memory, alongside higher-level reasoning like long-term planning and deliberation. We use V-MAGE to evaluate leading MLLMs, revealing significant challenges in their visual perception and reasoning. In all game environments, the top-performing MLLMs, as determined by Elo rating comparisons, exhibit a substantial performance gap compared to humans. Our findings highlight critical limitations, including various types of perceptual errors made by the models, and suggest potential avenues for improvement from an agent-centric perspective, such as refining agent strategies and addressing perceptual inaccuracies. Code is available at https://github.com/CSU-JPG/V-MAGE.

V-MAGE: Фреймворк для оценки игр, направленный на анализ визуально-ориентированных возможностей мультимодальных больших языковых моделей

V-MAGE: A Game Evaluation Framework for Assessing Visual-Centric Capabilities in Multimodal Large Language Models

Аннотация

Support