Gemini en Razonamiento: Revelando el Sentido Común en Modelos de Lenguaje Multimodales a Gran Escala

Resumen

El creciente interés en los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés), como GPT-4V(isión) de OpenAI, ha impactado significativamente tanto en el ámbito académico como industrial. Estos modelos mejoran los Modelos de Lenguaje de Gran Escala (LLMs) con capacidades avanzadas de comprensión visual, facilitando su aplicación en una variedad de tareas multimodales. Recientemente, Google presentó Gemini, un MLLM de vanguardia diseñado específicamente para la integración multimodal. A pesar de sus avances, los primeros benchmarks indican que Gemini se queda atrás de los modelos GPT en tareas de razonamiento de sentido común. Sin embargo, esta evaluación, basada en un conjunto de datos limitado (es decir, HellaSWAG), no captura completamente el potencial auténtico de razonamiento de sentido común de Gemini. Para abordar esta brecha, nuestro estudio realiza una evaluación exhaustiva del rendimiento de Gemini en tareas de razonamiento complejo que requieren la integración de conocimiento de sentido común a través de modalidades. Llevamos a cabo un análisis completo de 12 conjuntos de datos de razonamiento de sentido común, que van desde tareas generales hasta específicas de dominio. Esto incluye 11 conjuntos de datos centrados únicamente en lenguaje, así como uno que incorpora elementos multimodales. Nuestros experimentos en cuatro LLMs y dos MLLMs demuestran las capacidades competitivas de razonamiento de sentido común de Gemini. Además, identificamos desafíos comunes que enfrentan los LLMs y MLLMs actuales al abordar problemas de sentido común, destacando la necesidad de avances adicionales para mejorar las habilidades de razonamiento de sentido común de estos modelos.

English

The burgeoning interest in Multimodal Large Language Models (MLLMs), such as OpenAI's GPT-4V(ision), has significantly impacted both academic and industrial realms. These models enhance Large Language Models (LLMs) with advanced visual understanding capabilities, facilitating their application in a variety of multimodal tasks. Recently, Google introduced Gemini, a cutting-edge MLLM designed specifically for multimodal integration. Despite its advancements, preliminary benchmarks indicate that Gemini lags behind GPT models in commonsense reasoning tasks. However, this assessment, based on a limited dataset (i.e., HellaSWAG), does not fully capture Gemini's authentic commonsense reasoning potential. To address this gap, our study undertakes a thorough evaluation of Gemini's performance in complex reasoning tasks that necessitate the integration of commonsense knowledge across modalities. We carry out a comprehensive analysis of 12 commonsense reasoning datasets, ranging from general to domain-specific tasks. This includes 11 datasets focused solely on language, as well as one that incorporates multimodal elements. Our experiments across four LLMs and two MLLMs demonstrate Gemini's competitive commonsense reasoning capabilities. Additionally, we identify common challenges faced by current LLMs and MLLMs in addressing commonsense problems, underscoring the need for further advancements in enhancing the commonsense reasoning abilities of these models.

Gemini en Razonamiento: Revelando el Sentido Común en Modelos de Lenguaje Multimodales a Gran Escala

Gemini in Reasoning: Unveiling Commonsense in Multimodal Large Language Models

Resumen

Support