Gemini no Raciocínio: Revelando o Senso Comum em Modelos de Linguagem Multimodais de Grande Escala
Gemini in Reasoning: Unveiling Commonsense in Multimodal Large Language Models
December 29, 2023
Autores: Yuqing Wang, Yun Zhao
cs.AI
Resumo
O crescente interesse nos Modelos de Linguagem Multimodais de Grande Escala (MLLMs), como o GPT-4V(ision) da OpenAI, impactou significativamente tanto o meio acadêmico quanto o industrial. Esses modelos aprimoram os Modelos de Linguagem de Grande Escala (LLMs) com capacidades avançadas de compreensão visual, facilitando sua aplicação em uma variedade de tarefas multimodais. Recentemente, a Google introduziu o Gemini, um MLLM de ponta projetado especificamente para integração multimodal. Apesar de seus avanços, benchmarks preliminares indicam que o Gemini fica atrás dos modelos GPT em tarefas de raciocínio de senso comum. No entanto, essa avaliação, baseada em um conjunto de dados limitado (ou seja, HellaSWAG), não captura plenamente o potencial autêntico de raciocínio de senso comum do Gemini. Para abordar essa lacuna, nosso estudo realiza uma avaliação minuciosa do desempenho do Gemini em tarefas complexas de raciocínio que exigem a integração de conhecimento de senso comum entre modalidades. Realizamos uma análise abrangente de 12 conjuntos de dados de raciocínio de senso comum, variando de tarefas gerais a específicas de domínio. Isso inclui 11 conjuntos de dados focados exclusivamente em linguagem, além de um que incorpora elementos multimodais. Nossos experimentos com quatro LLMs e dois MLLMs demonstram as capacidades competitivas de raciocínio de senso comum do Gemini. Além disso, identificamos desafios comuns enfrentados pelos LLMs e MLLMs atuais ao abordar problemas de senso comum, destacando a necessidade de avanços adicionais no aprimoramento das habilidades de raciocínio de senso comum desses modelos.
English
The burgeoning interest in Multimodal Large Language Models (MLLMs), such as
OpenAI's GPT-4V(ision), has significantly impacted both academic and industrial
realms. These models enhance Large Language Models (LLMs) with advanced visual
understanding capabilities, facilitating their application in a variety of
multimodal tasks. Recently, Google introduced Gemini, a cutting-edge MLLM
designed specifically for multimodal integration. Despite its advancements,
preliminary benchmarks indicate that Gemini lags behind GPT models in
commonsense reasoning tasks. However, this assessment, based on a limited
dataset (i.e., HellaSWAG), does not fully capture Gemini's authentic
commonsense reasoning potential. To address this gap, our study undertakes a
thorough evaluation of Gemini's performance in complex reasoning tasks that
necessitate the integration of commonsense knowledge across modalities. We
carry out a comprehensive analysis of 12 commonsense reasoning datasets,
ranging from general to domain-specific tasks. This includes 11 datasets
focused solely on language, as well as one that incorporates multimodal
elements. Our experiments across four LLMs and two MLLMs demonstrate Gemini's
competitive commonsense reasoning capabilities. Additionally, we identify
common challenges faced by current LLMs and MLLMs in addressing commonsense
problems, underscoring the need for further advancements in enhancing the
commonsense reasoning abilities of these models.