ChatPaper.aiChatPaper

V-MAGE : Un cadre d'évaluation de jeux pour mesurer les capacités visuelles dans les modèles de langage multimodaux de grande envergure

V-MAGE: A Game Evaluation Framework for Assessing Visual-Centric Capabilities in Multimodal Large Language Models

April 8, 2025
Auteurs: Xiangxi Zheng, Linjie Li, Zhengyuan Yang, Ping Yu, Alex Jinpeng Wang, Rui Yan, Yuan Yao, Lijuan Wang
cs.AI

Résumé

Les récentes avancées dans les modèles de langage multimodaux de grande envergure (MLLMs) ont conduit à des améliorations significatives sur divers benchmarks multimodaux. Cependant, alors que les évaluations passent des ensembles de données statiques à des environnements dynamiques et ouverts, les benchmarks actuels basés sur des jeux restent inadéquats car ils manquent de tâches centrées sur la vision et ne parviennent pas à évaluer les diverses compétences de raisonnement nécessaires à la prise de décision dans le monde réel. Pour remédier à cela, nous introduisons Visual-centric Multiple Abilities Game Evaluation (V-MAGE), un cadre d'évaluation basé sur des jeux conçu pour évaluer les capacités de raisonnement visuel des MLLMs. V-MAGE propose cinq jeux variés avec plus de 30 niveaux soigneusement conçus, testant les modèles sur des compétences visuelles fondamentales telles que le positionnement, le suivi de trajectoire, la synchronisation et la mémoire visuelle, ainsi que sur des raisonnements de plus haut niveau comme la planification à long terme et la délibération. Nous utilisons V-MAGE pour évaluer les principaux MLLMs, révélant des défis significatifs dans leur perception et raisonnement visuels. Dans tous les environnements de jeu, les MLLMs les plus performants, déterminés par des comparaisons de classement Elo, présentent un écart de performance substantiel par rapport aux humains. Nos résultats mettent en lumière des limitations critiques, notamment divers types d'erreurs perceptuelles commises par les modèles, et suggèrent des pistes d'amélioration potentielles d'un point de vue centré sur l'agent, comme l'affinement des stratégies d'agents et la correction des inexactitudes perceptuelles. Le code est disponible à l'adresse https://github.com/CSU-JPG/V-MAGE.
English
Recent advancements in Multimodal Large Language Models (MLLMs) have led to significant improvements across various multimodal benchmarks. However, as evaluations shift from static datasets to open-world, dynamic environments, current game-based benchmarks remain inadequate because they lack visual-centric tasks and fail to assess the diverse reasoning skills required for real-world decision-making. To address this, we introduce Visual-centric Multiple Abilities Game Evaluation (V-MAGE), a game-based evaluation framework designed to assess visual reasoning capabilities of MLLMs. V-MAGE features five diverse games with 30+ handcrafted levels, testing models on core visual skills such as positioning, trajectory tracking, timing, and visual memory, alongside higher-level reasoning like long-term planning and deliberation. We use V-MAGE to evaluate leading MLLMs, revealing significant challenges in their visual perception and reasoning. In all game environments, the top-performing MLLMs, as determined by Elo rating comparisons, exhibit a substantial performance gap compared to humans. Our findings highlight critical limitations, including various types of perceptual errors made by the models, and suggest potential avenues for improvement from an agent-centric perspective, such as refining agent strategies and addressing perceptual inaccuracies. Code is available at https://github.com/CSU-JPG/V-MAGE.

Summary

AI-Generated Summary

PDF132April 9, 2025