Gemini en Raisonnement : Révéler le Sens Commun dans les Modèles de Langage Multimodaux à Grande Échelle

papers.abstract

L'intérêt croissant pour les modèles de langage multimodaux de grande envergure (MLLMs), tels que GPT-4V(ision) d'OpenAI, a eu un impact significatif sur les domaines académiques et industriels. Ces modèles enrichissent les modèles de langage de grande envergure (LLMs) avec des capacités avancées de compréhension visuelle, facilitant leur application dans une variété de tâches multimodales. Récemment, Google a introduit Gemini, un MLLM de pointe conçu spécifiquement pour l'intégration multimodale. Malgré ses avancées, les benchmarks préliminaires indiquent que Gemini est à la traîne des modèles GPT dans les tâches de raisonnement de bon sens. Cependant, cette évaluation, basée sur un ensemble de données limité (c'est-à-dire HellaSWAG), ne capture pas pleinement le potentiel authentique de raisonnement de bon sens de Gemini. Pour combler cette lacune, notre étude entreprend une évaluation approfondie des performances de Gemini dans des tâches de raisonnement complexe nécessitant l'intégration de connaissances de bon sens à travers les modalités. Nous réalisons une analyse complète de 12 ensembles de données de raisonnement de bon sens, allant des tâches générales aux tâches spécifiques à un domaine. Cela inclut 11 ensembles de données axés uniquement sur le langage, ainsi qu'un qui intègre des éléments multimodaux. Nos expériences sur quatre LLMs et deux MLLMs démontrent les capacités compétitives de Gemini en matière de raisonnement de bon sens. De plus, nous identifions les défis communs rencontrés par les LLMs et MLLMs actuels dans la résolution de problèmes de bon sens, soulignant la nécessité de progrès supplémentaires pour améliorer les capacités de raisonnement de bon sens de ces modèles.

English

The burgeoning interest in Multimodal Large Language Models (MLLMs), such as OpenAI's GPT-4V(ision), has significantly impacted both academic and industrial realms. These models enhance Large Language Models (LLMs) with advanced visual understanding capabilities, facilitating their application in a variety of multimodal tasks. Recently, Google introduced Gemini, a cutting-edge MLLM designed specifically for multimodal integration. Despite its advancements, preliminary benchmarks indicate that Gemini lags behind GPT models in commonsense reasoning tasks. However, this assessment, based on a limited dataset (i.e., HellaSWAG), does not fully capture Gemini's authentic commonsense reasoning potential. To address this gap, our study undertakes a thorough evaluation of Gemini's performance in complex reasoning tasks that necessitate the integration of commonsense knowledge across modalities. We carry out a comprehensive analysis of 12 commonsense reasoning datasets, ranging from general to domain-specific tasks. This includes 11 datasets focused solely on language, as well as one that incorporates multimodal elements. Our experiments across four LLMs and two MLLMs demonstrate Gemini's competitive commonsense reasoning capabilities. Additionally, we identify common challenges faced by current LLMs and MLLMs in addressing commonsense problems, underscoring the need for further advancements in enhancing the commonsense reasoning abilities of these models.

Gemini en Raisonnement : Révéler le Sens Commun dans les Modèles de Langage Multimodaux à Grande Échelle

Gemini in Reasoning: Unveiling Commonsense in Multimodal Large Language Models

papers.abstract

Support