Gemini en Razonamiento: Revelando el Sentido Común en Modelos de Lenguaje Multimodales a Gran Escala
Gemini in Reasoning: Unveiling Commonsense in Multimodal Large Language Models
December 29, 2023
Autores: Yuqing Wang, Yun Zhao
cs.AI
Resumen
El creciente interés en los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés), como GPT-4V(isión) de OpenAI, ha impactado significativamente tanto en el ámbito académico como industrial. Estos modelos mejoran los Modelos de Lenguaje de Gran Escala (LLMs) con capacidades avanzadas de comprensión visual, facilitando su aplicación en una variedad de tareas multimodales. Recientemente, Google presentó Gemini, un MLLM de vanguardia diseñado específicamente para la integración multimodal. A pesar de sus avances, los primeros benchmarks indican que Gemini se queda atrás de los modelos GPT en tareas de razonamiento de sentido común. Sin embargo, esta evaluación, basada en un conjunto de datos limitado (es decir, HellaSWAG), no captura completamente el potencial auténtico de razonamiento de sentido común de Gemini. Para abordar esta brecha, nuestro estudio realiza una evaluación exhaustiva del rendimiento de Gemini en tareas de razonamiento complejo que requieren la integración de conocimiento de sentido común a través de modalidades. Llevamos a cabo un análisis completo de 12 conjuntos de datos de razonamiento de sentido común, que van desde tareas generales hasta específicas de dominio. Esto incluye 11 conjuntos de datos centrados únicamente en lenguaje, así como uno que incorpora elementos multimodales. Nuestros experimentos en cuatro LLMs y dos MLLMs demuestran las capacidades competitivas de razonamiento de sentido común de Gemini. Además, identificamos desafíos comunes que enfrentan los LLMs y MLLMs actuales al abordar problemas de sentido común, destacando la necesidad de avances adicionales para mejorar las habilidades de razonamiento de sentido común de estos modelos.
English
The burgeoning interest in Multimodal Large Language Models (MLLMs), such as
OpenAI's GPT-4V(ision), has significantly impacted both academic and industrial
realms. These models enhance Large Language Models (LLMs) with advanced visual
understanding capabilities, facilitating their application in a variety of
multimodal tasks. Recently, Google introduced Gemini, a cutting-edge MLLM
designed specifically for multimodal integration. Despite its advancements,
preliminary benchmarks indicate that Gemini lags behind GPT models in
commonsense reasoning tasks. However, this assessment, based on a limited
dataset (i.e., HellaSWAG), does not fully capture Gemini's authentic
commonsense reasoning potential. To address this gap, our study undertakes a
thorough evaluation of Gemini's performance in complex reasoning tasks that
necessitate the integration of commonsense knowledge across modalities. We
carry out a comprehensive analysis of 12 commonsense reasoning datasets,
ranging from general to domain-specific tasks. This includes 11 datasets
focused solely on language, as well as one that incorporates multimodal
elements. Our experiments across four LLMs and two MLLMs demonstrate Gemini's
competitive commonsense reasoning capabilities. Additionally, we identify
common challenges faced by current LLMs and MLLMs in addressing commonsense
problems, underscoring the need for further advancements in enhancing the
commonsense reasoning abilities of these models.