ChatPaper.aiChatPaper

V-MAGE: Ein Bewertungsrahmen für die Beurteilung visuell-zentrierter Fähigkeiten in multimodalen großen Sprachmodellen

V-MAGE: A Game Evaluation Framework for Assessing Visual-Centric Capabilities in Multimodal Large Language Models

April 8, 2025
Autoren: Xiangxi Zheng, Linjie Li, Zhengyuan Yang, Ping Yu, Alex Jinpeng Wang, Rui Yan, Yuan Yao, Lijuan Wang
cs.AI

Zusammenfassung

Jüngste Fortschritte bei Multimodalen Großen Sprachmodellen (MLLMs) haben zu erheblichen Verbesserungen in verschiedenen multimodalen Benchmarks geführt. Da sich die Evaluierungen jedoch von statischen Datensätzen hin zu offenen, dynamischen Umgebungen verschieben, bleiben aktuelle spielbasierte Benchmarks unzureichend, da sie visuell zentrierte Aufgaben vermissen und die vielfältigen Denkfähigkeiten, die für die Entscheidungsfindung in der realen Welt erforderlich sind, nicht bewerten. Um dies zu beheben, führen wir Visual-centric Multiple Abilities Game Evaluation (V-MAGE) ein, ein spielbasiertes Evaluierungsframework, das darauf abzielt, die visuellen Denkfähigkeiten von MLLMs zu bewerten. V-MAGE umfasst fünf verschiedene Spiele mit über 30 handgefertigten Levels, die Modelle auf Kernfähigkeiten wie Positionierung, Bahnverfolgung, Timing und visuelles Gedächtnis sowie höhere Denkfähigkeiten wie langfristige Planung und Überlegung testen. Wir verwenden V-MAGE, um führende MLLMs zu evaluieren, und decken dabei erhebliche Herausforderungen in ihrer visuellen Wahrnehmung und Denkfähigkeit auf. In allen Spielumgebungen zeigen die leistungsstärksten MLLMs, gemessen an Elo-Rating-Vergleichen, eine erhebliche Leistungslücke im Vergleich zu Menschen. Unsere Ergebnisse verdeutlichen kritische Einschränkungen, einschließlich verschiedener Arten von Wahrnehmungsfehlern, die von den Modellen gemacht werden, und legen potenzielle Verbesserungsmöglichkeiten aus einer agentenzentrierten Perspektive nahe, wie die Verfeinerung von Agentenstrategien und die Behebung von Wahrnehmungsungenauigkeiten. Der Code ist verfügbar unter https://github.com/CSU-JPG/V-MAGE.
English
Recent advancements in Multimodal Large Language Models (MLLMs) have led to significant improvements across various multimodal benchmarks. However, as evaluations shift from static datasets to open-world, dynamic environments, current game-based benchmarks remain inadequate because they lack visual-centric tasks and fail to assess the diverse reasoning skills required for real-world decision-making. To address this, we introduce Visual-centric Multiple Abilities Game Evaluation (V-MAGE), a game-based evaluation framework designed to assess visual reasoning capabilities of MLLMs. V-MAGE features five diverse games with 30+ handcrafted levels, testing models on core visual skills such as positioning, trajectory tracking, timing, and visual memory, alongside higher-level reasoning like long-term planning and deliberation. We use V-MAGE to evaluate leading MLLMs, revealing significant challenges in their visual perception and reasoning. In all game environments, the top-performing MLLMs, as determined by Elo rating comparisons, exhibit a substantial performance gap compared to humans. Our findings highlight critical limitations, including various types of perceptual errors made by the models, and suggest potential avenues for improvement from an agent-centric perspective, such as refining agent strategies and addressing perceptual inaccuracies. Code is available at https://github.com/CSU-JPG/V-MAGE.

Summary

AI-Generated Summary

PDF132April 9, 2025