VisuLogic : Un benchmark pour évaluer le raisonnement visuel dans les modèles de langage multi-modaux de grande taille
VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models
April 21, 2025
Auteurs: Weiye Xu, Jiahao Wang, Weiyun Wang, Zhe Chen, Wengang Zhou, Aijun Yang, Lewei Lu, Houqiang Li, Xiaohua Wang, Xizhou Zhu, Wenhai Wang, Jifeng Dai, Jinguo Zhu
cs.AI
Résumé
Le raisonnement visuel est une composante essentielle de l'intelligence humaine et une capacité critique pour les modèles multimodaux avancés. Cependant, les évaluations actuelles du raisonnement des grands modèles de langage multimodaux (MLLMs) reposent souvent sur des descriptions textuelles et permettent des raccourcis de raisonnement basés sur le langage, ne mesurant pas véritablement le raisonnement centré sur la vision. Pour remédier à cela, nous présentons VisuLogic : un benchmark de 1 000 problèmes vérifiés par des humains, répartis en six catégories (par exemple, les variations quantitatives, les relations spatiales, les comparaisons d'attributs). Ces différents types de questions permettent d'évaluer les capacités de raisonnement visuel des MLLMs sous plusieurs angles. Nous évaluons les principaux MLLMs sur ce benchmark et analysons leurs résultats pour identifier les modes d'échec courants. La plupart des modèles obtiennent une précision inférieure à 30 % - légèrement au-dessus de la base aléatoire de 25 % et bien en dessous des 51,4 % atteints par les humains - révélant des lacunes significatives dans le raisonnement visuel. De plus, nous fournissons un ensemble de données d'entraînement supplémentaire et une base de référence en apprentissage par renforcement pour soutenir les progrès futurs.
English
Visual reasoning is a core component of human intelligence and a critical
capability for advanced multimodal models. Yet current reasoning evaluations of
multimodal large language models (MLLMs) often rely on text descriptions and
allow language-based reasoning shortcuts, failing to measure genuine
vision-centric reasoning. To address this, we introduce VisuLogic: a benchmark
of 1,000 human-verified problems across six categories (e.g., quantitative
shifts, spatial relations, attribute comparisons). These various types of
questions can be evaluated to assess the visual reasoning capabilities of MLLMs
from multiple perspectives. We evaluate leading MLLMs on this benchmark and
analyze their results to identify common failure modes. Most models score below
30% accuracy-only slightly above the 25% random baseline and far below the
51.4% achieved by humans-revealing significant gaps in visual reasoning.
Furthermore, we provide a supplementary training dataset and a
reinforcement-learning baseline to support further progress.Summary
AI-Generated Summary