V-MAGE: Фреймворк для оценки игр, направленный на анализ визуально-ориентированных возможностей мультимодальных больших языковых моделей
V-MAGE: A Game Evaluation Framework for Assessing Visual-Centric Capabilities in Multimodal Large Language Models
April 8, 2025
Авторы: Xiangxi Zheng, Linjie Li, Zhengyuan Yang, Ping Yu, Alex Jinpeng Wang, Rui Yan, Yuan Yao, Lijuan Wang
cs.AI
Аннотация
Последние достижения в области мультимодальных больших языковых моделей (MLLMs) привели к значительным улучшениям в различных мультимодальных тестах. Однако, по мере того как оценка смещается от статических наборов данных к открытым, динамическим средам, текущие игровые тесты остаются недостаточными, поскольку они не включают визуально-ориентированные задачи и не оценивают разнообразные навыки рассуждения, необходимые для принятия решений в реальном мире. Для решения этой проблемы мы представляем Visual-centric Multiple Abilities Game Evaluation (V-MAGE) — игровую оценочную платформу, разработанную для проверки визуальных способностей рассуждения MLLMs. V-MAGE включает пять разнообразных игр с более чем 30 тщательно разработанными уровнями, тестирующими модели на ключевых визуальных навыках, таких как позиционирование, отслеживание траекторий, тайминг и визуальная память, а также на более сложных навыках рассуждения, таких как долгосрочное планирование и обдумывание. Мы используем V-MAGE для оценки ведущих MLLMs, выявляя значительные трудности в их визуальном восприятии и рассуждении. Во всех игровых средах лучшие MLLMs, определенные по рейтингу Elo, демонстрируют существенный разрыв в производительности по сравнению с людьми. Наши результаты подчеркивают критические ограничения, включая различные типы ошибок восприятия, допущенные моделями, и предлагают потенциальные пути улучшения с точки зрения агент-центрированного подхода, такие как уточнение стратегий агентов и устранение неточностей восприятия. Код доступен по адресу https://github.com/CSU-JPG/V-MAGE.
English
Recent advancements in Multimodal Large Language Models (MLLMs) have led to
significant improvements across various multimodal benchmarks. However, as
evaluations shift from static datasets to open-world, dynamic environments,
current game-based benchmarks remain inadequate because they lack
visual-centric tasks and fail to assess the diverse reasoning skills required
for real-world decision-making. To address this, we introduce Visual-centric
Multiple Abilities Game Evaluation (V-MAGE), a game-based evaluation framework
designed to assess visual reasoning capabilities of MLLMs. V-MAGE features five
diverse games with 30+ handcrafted levels, testing models on core visual skills
such as positioning, trajectory tracking, timing, and visual memory, alongside
higher-level reasoning like long-term planning and deliberation. We use V-MAGE
to evaluate leading MLLMs, revealing significant challenges in their visual
perception and reasoning. In all game environments, the top-performing MLLMs,
as determined by Elo rating comparisons, exhibit a substantial performance gap
compared to humans. Our findings highlight critical limitations, including
various types of perceptual errors made by the models, and suggest potential
avenues for improvement from an agent-centric perspective, such as refining
agent strategies and addressing perceptual inaccuracies. Code is available at
https://github.com/CSU-JPG/V-MAGE.Summary
AI-Generated Summary