ChatPaper.aiChatPaper

V-MAGE: Um Framework de Avaliação de Jogos para Analisar Capacidades Visuais em Modelos de Linguagem Multimodais de Grande Escala

V-MAGE: A Game Evaluation Framework for Assessing Visual-Centric Capabilities in Multimodal Large Language Models

April 8, 2025
Autores: Xiangxi Zheng, Linjie Li, Zhengyuan Yang, Ping Yu, Alex Jinpeng Wang, Rui Yan, Yuan Yao, Lijuan Wang
cs.AI

Resumo

Os recentes avanços em Modelos de Linguagem Multimodais de Grande Escala (MLLMs) levaram a melhorias significativas em vários benchmarks multimodais. No entanto, à medida que as avaliações passam de conjuntos de dados estáticos para ambientes dinâmicos e de mundo aberto, os benchmarks baseados em jogos atuais permanecem inadequados, pois carecem de tarefas centradas em aspectos visuais e não avaliam as diversas habilidades de raciocínio necessárias para a tomada de decisões no mundo real. Para abordar isso, introduzimos o Visual-centric Multiple Abilities Game Evaluation (V-MAGE), um framework de avaliação baseado em jogos projetado para avaliar as capacidades de raciocínio visual dos MLLMs. O V-MAGE apresenta cinco jogos diversos com mais de 30 níveis cuidadosamente elaborados, testando os modelos em habilidades visuais fundamentais, como posicionamento, rastreamento de trajetória, temporização e memória visual, juntamente com raciocínio de nível superior, como planejamento de longo prazo e deliberação. Utilizamos o V-MAGE para avaliar os principais MLLMs, revelando desafios significativos em sua percepção e raciocínio visual. Em todos os ambientes de jogo, os MLLMs de melhor desempenho, determinados por comparações de pontuação Elo, exibem uma lacuna substancial de desempenho em relação aos humanos. Nossas descobertas destacam limitações críticas, incluindo vários tipos de erros perceptivos cometidos pelos modelos, e sugerem possíveis caminhos para melhorias a partir de uma perspectiva centrada no agente, como o refinamento de estratégias do agente e a correção de imprecisões perceptivas. O código está disponível em https://github.com/CSU-JPG/V-MAGE.
English
Recent advancements in Multimodal Large Language Models (MLLMs) have led to significant improvements across various multimodal benchmarks. However, as evaluations shift from static datasets to open-world, dynamic environments, current game-based benchmarks remain inadequate because they lack visual-centric tasks and fail to assess the diverse reasoning skills required for real-world decision-making. To address this, we introduce Visual-centric Multiple Abilities Game Evaluation (V-MAGE), a game-based evaluation framework designed to assess visual reasoning capabilities of MLLMs. V-MAGE features five diverse games with 30+ handcrafted levels, testing models on core visual skills such as positioning, trajectory tracking, timing, and visual memory, alongside higher-level reasoning like long-term planning and deliberation. We use V-MAGE to evaluate leading MLLMs, revealing significant challenges in their visual perception and reasoning. In all game environments, the top-performing MLLMs, as determined by Elo rating comparisons, exhibit a substantial performance gap compared to humans. Our findings highlight critical limitations, including various types of perceptual errors made by the models, and suggest potential avenues for improvement from an agent-centric perspective, such as refining agent strategies and addressing perceptual inaccuracies. Code is available at https://github.com/CSU-JPG/V-MAGE.

Summary

AI-Generated Summary

PDF132April 9, 2025