Gemini en Raisonnement : Révéler le Sens Commun dans les Modèles de Langage Multimodaux à Grande Échelle
Gemini in Reasoning: Unveiling Commonsense in Multimodal Large Language Models
December 29, 2023
Auteurs: Yuqing Wang, Yun Zhao
cs.AI
Résumé
L'intérêt croissant pour les modèles de langage multimodaux de grande envergure (MLLMs), tels que GPT-4V(ision) d'OpenAI, a eu un impact significatif sur les domaines académiques et industriels. Ces modèles enrichissent les modèles de langage de grande envergure (LLMs) avec des capacités avancées de compréhension visuelle, facilitant leur application dans une variété de tâches multimodales. Récemment, Google a introduit Gemini, un MLLM de pointe conçu spécifiquement pour l'intégration multimodale. Malgré ses avancées, les benchmarks préliminaires indiquent que Gemini est à la traîne des modèles GPT dans les tâches de raisonnement de bon sens. Cependant, cette évaluation, basée sur un ensemble de données limité (c'est-à-dire HellaSWAG), ne capture pas pleinement le potentiel authentique de raisonnement de bon sens de Gemini. Pour combler cette lacune, notre étude entreprend une évaluation approfondie des performances de Gemini dans des tâches de raisonnement complexe nécessitant l'intégration de connaissances de bon sens à travers les modalités. Nous réalisons une analyse complète de 12 ensembles de données de raisonnement de bon sens, allant des tâches générales aux tâches spécifiques à un domaine. Cela inclut 11 ensembles de données axés uniquement sur le langage, ainsi qu'un qui intègre des éléments multimodaux. Nos expériences sur quatre LLMs et deux MLLMs démontrent les capacités compétitives de Gemini en matière de raisonnement de bon sens. De plus, nous identifions les défis communs rencontrés par les LLMs et MLLMs actuels dans la résolution de problèmes de bon sens, soulignant la nécessité de progrès supplémentaires pour améliorer les capacités de raisonnement de bon sens de ces modèles.
English
The burgeoning interest in Multimodal Large Language Models (MLLMs), such as
OpenAI's GPT-4V(ision), has significantly impacted both academic and industrial
realms. These models enhance Large Language Models (LLMs) with advanced visual
understanding capabilities, facilitating their application in a variety of
multimodal tasks. Recently, Google introduced Gemini, a cutting-edge MLLM
designed specifically for multimodal integration. Despite its advancements,
preliminary benchmarks indicate that Gemini lags behind GPT models in
commonsense reasoning tasks. However, this assessment, based on a limited
dataset (i.e., HellaSWAG), does not fully capture Gemini's authentic
commonsense reasoning potential. To address this gap, our study undertakes a
thorough evaluation of Gemini's performance in complex reasoning tasks that
necessitate the integration of commonsense knowledge across modalities. We
carry out a comprehensive analysis of 12 commonsense reasoning datasets,
ranging from general to domain-specific tasks. This includes 11 datasets
focused solely on language, as well as one that incorporates multimodal
elements. Our experiments across four LLMs and two MLLMs demonstrate Gemini's
competitive commonsense reasoning capabilities. Additionally, we identify
common challenges faced by current LLMs and MLLMs in addressing commonsense
problems, underscoring the need for further advancements in enhancing the
commonsense reasoning abilities of these models.