ChatPaper.aiChatPaper

V-MAGE: Een raamwerk voor spelbeoordeling om visueel-gerichte vaardigheden in multimodale grote taalmodellen te evalueren

V-MAGE: A Game Evaluation Framework for Assessing Visual-Centric Capabilities in Multimodal Large Language Models

April 8, 2025
Auteurs: Xiangxi Zheng, Linjie Li, Zhengyuan Yang, Ping Yu, Alex Jinpeng Wang, Rui Yan, Yuan Yao, Lijuan Wang
cs.AI

Samenvatting

Recente vooruitgang in Multimodale Grote Taalmodellen (MLLMs) heeft geleid tot aanzienlijke verbeteringen op verschillende multimodale benchmarks. Echter, naarmate evaluaties verschuiven van statische datasets naar open, dynamische omgevingen, blijken huidige game-gebaseerde benchmarks ontoereikend omdat ze visueel gerichte taken missen en niet in staat zijn om de diverse redeneervaardigheden te beoordelen die nodig zijn voor besluitvorming in de echte wereld. Om dit aan te pakken, introduceren we Visual-centric Multiple Abilities Game Evaluation (V-MAGE), een game-gebaseerd evaluatiekader ontworpen om de visuele redeneervaardigheden van MLLMs te beoordelen. V-MAGE omvat vijf diverse spellen met meer dan 30 handgemaakte niveaus, waarbij modellen worden getest op kernvisuele vaardigheden zoals positionering, trajectvolging, timing en visueel geheugen, naast hogere redeneervaardigheden zoals langetermijnplanning en beraadslaging. We gebruiken V-MAGE om toonaangevende MLLMs te evalueren, wat aanzienlijke uitdagingen in hun visuele perceptie en redenering aan het licht brengt. In alle spelomgevingen vertonen de best presterende MLLMs, zoals bepaald door Elo-ratingvergelijkingen, een aanzienlijke prestatiekloof ten opzichte van mensen. Onze bevindingen benadrukken kritieke beperkingen, waaronder verschillende soorten perceptuele fouten gemaakt door de modellen, en suggereren mogelijke verbeteringsmogelijkheden vanuit een agent-gericht perspectief, zoals het verfijnen van agentstrategieën en het aanpakken van perceptuele onnauwkeurigheden. Code is beschikbaar op https://github.com/CSU-JPG/V-MAGE.
English
Recent advancements in Multimodal Large Language Models (MLLMs) have led to significant improvements across various multimodal benchmarks. However, as evaluations shift from static datasets to open-world, dynamic environments, current game-based benchmarks remain inadequate because they lack visual-centric tasks and fail to assess the diverse reasoning skills required for real-world decision-making. To address this, we introduce Visual-centric Multiple Abilities Game Evaluation (V-MAGE), a game-based evaluation framework designed to assess visual reasoning capabilities of MLLMs. V-MAGE features five diverse games with 30+ handcrafted levels, testing models on core visual skills such as positioning, trajectory tracking, timing, and visual memory, alongside higher-level reasoning like long-term planning and deliberation. We use V-MAGE to evaluate leading MLLMs, revealing significant challenges in their visual perception and reasoning. In all game environments, the top-performing MLLMs, as determined by Elo rating comparisons, exhibit a substantial performance gap compared to humans. Our findings highlight critical limitations, including various types of perceptual errors made by the models, and suggest potential avenues for improvement from an agent-centric perspective, such as refining agent strategies and addressing perceptual inaccuracies. Code is available at https://github.com/CSU-JPG/V-MAGE.

Summary

AI-Generated Summary

PDF132April 9, 2025