V-MAGE: Un Marco de Evaluación de Juegos para Valorar Capacidades Visuales en Modelos de Lenguaje Multimodales de Gran Escala
V-MAGE: A Game Evaluation Framework for Assessing Visual-Centric Capabilities in Multimodal Large Language Models
April 8, 2025
Autores: Xiangxi Zheng, Linjie Li, Zhengyuan Yang, Ping Yu, Alex Jinpeng Wang, Rui Yan, Yuan Yao, Lijuan Wang
cs.AI
Resumen
Los recientes avances en Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) han llevado a mejoras significativas en diversos puntos de referencia multimodales. Sin embargo, a medida que las evaluaciones pasan de conjuntos de datos estáticos a entornos dinámicos y abiertos, los actuales puntos de referencia basados en juegos siguen siendo inadecuados porque carecen de tareas centradas en lo visual y no evalúan las diversas habilidades de razonamiento necesarias para la toma de decisiones en el mundo real. Para abordar esto, presentamos la Evaluación de Juegos de Múltiples Habilidades Centrada en lo Visual (V-MAGE), un marco de evaluación basado en juegos diseñado para evaluar las capacidades de razonamiento visual de los MLLMs. V-MAGE incluye cinco juegos diversos con más de 30 niveles cuidadosamente diseñados, que ponen a prueba a los modelos en habilidades visuales fundamentales como el posicionamiento, el seguimiento de trayectorias, la sincronización y la memoria visual, junto con razonamientos de nivel superior como la planificación a largo plazo y la deliberación. Utilizamos V-MAGE para evaluar a los principales MLLMs, revelando desafíos significativos en su percepción y razonamiento visual. En todos los entornos de juego, los MLLMs con mejor rendimiento, según las comparaciones de calificación Elo, muestran una brecha de rendimiento sustancial en comparación con los humanos. Nuestros hallazgos destacan limitaciones críticas, incluyendo diversos tipos de errores perceptivos cometidos por los modelos, y sugieren posibles vías de mejora desde una perspectiva centrada en el agente, como refinar las estrategias del agente y abordar las imprecisiones perceptivas. El código está disponible en https://github.com/CSU-JPG/V-MAGE.
English
Recent advancements in Multimodal Large Language Models (MLLMs) have led to
significant improvements across various multimodal benchmarks. However, as
evaluations shift from static datasets to open-world, dynamic environments,
current game-based benchmarks remain inadequate because they lack
visual-centric tasks and fail to assess the diverse reasoning skills required
for real-world decision-making. To address this, we introduce Visual-centric
Multiple Abilities Game Evaluation (V-MAGE), a game-based evaluation framework
designed to assess visual reasoning capabilities of MLLMs. V-MAGE features five
diverse games with 30+ handcrafted levels, testing models on core visual skills
such as positioning, trajectory tracking, timing, and visual memory, alongside
higher-level reasoning like long-term planning and deliberation. We use V-MAGE
to evaluate leading MLLMs, revealing significant challenges in their visual
perception and reasoning. In all game environments, the top-performing MLLMs,
as determined by Elo rating comparisons, exhibit a substantial performance gap
compared to humans. Our findings highlight critical limitations, including
various types of perceptual errors made by the models, and suggest potential
avenues for improvement from an agent-centric perspective, such as refining
agent strategies and addressing perceptual inaccuracies. Code is available at
https://github.com/CSU-JPG/V-MAGE.Summary
AI-Generated Summary