Gemini nel Ragionamento: Svelare il Senso Comune nei Modelli Linguistici Multimodali di Grande Scala
Gemini in Reasoning: Unveiling Commonsense in Multimodal Large Language Models
December 29, 2023
Autori: Yuqing Wang, Yun Zhao
cs.AI
Abstract
Il crescente interesse per i Modelli Linguistici Multimodali di Grande Scala (MLLMs), come GPT-4V(ision) di OpenAI, ha avuto un impatto significativo sia in ambito accademico che industriale. Questi modelli potenziano i Modelli Linguistici di Grande Scala (LLMs) con capacità avanzate di comprensione visiva, facilitando la loro applicazione in una varietà di compiti multimodali. Recentemente, Google ha introdotto Gemini, un MLLM all'avanguardia progettato specificamente per l'integrazione multimodale. Nonostante i suoi progressi, i benchmark preliminari indicano che Gemini è in ritardo rispetto ai modelli GPT nei compiti di ragionamento basato sul senso comune. Tuttavia, questa valutazione, basata su un dataset limitato (ad esempio, HellaSWAG), non cattura appieno il potenziale autentico di ragionamento basato sul senso comune di Gemini. Per colmare questa lacuna, il nostro studio intraprende una valutazione approfondita delle prestazioni di Gemini in compiti di ragionamento complesso che richiedono l'integrazione di conoscenza di senso comune attraverso le modalità. Eseguiamo un'analisi completa di 12 dataset di ragionamento basato sul senso comune, che spaziano da compiti generali a compiti specifici di dominio. Questo include 11 dataset focalizzati esclusivamente sul linguaggio, oltre a uno che incorpora elementi multimodali. I nostri esperimenti su quattro LLMs e due MLLMs dimostrano le capacità competitive di Gemini nel ragionamento basato sul senso comune. Inoltre, identifichiamo le sfide comuni affrontate dagli attuali LLMs e MLLMs nel risolvere problemi di senso comune, sottolineando la necessità di ulteriori progressi nel migliorare le capacità di ragionamento basato sul senso comune di questi modelli.
English
The burgeoning interest in Multimodal Large Language Models (MLLMs), such as
OpenAI's GPT-4V(ision), has significantly impacted both academic and industrial
realms. These models enhance Large Language Models (LLMs) with advanced visual
understanding capabilities, facilitating their application in a variety of
multimodal tasks. Recently, Google introduced Gemini, a cutting-edge MLLM
designed specifically for multimodal integration. Despite its advancements,
preliminary benchmarks indicate that Gemini lags behind GPT models in
commonsense reasoning tasks. However, this assessment, based on a limited
dataset (i.e., HellaSWAG), does not fully capture Gemini's authentic
commonsense reasoning potential. To address this gap, our study undertakes a
thorough evaluation of Gemini's performance in complex reasoning tasks that
necessitate the integration of commonsense knowledge across modalities. We
carry out a comprehensive analysis of 12 commonsense reasoning datasets,
ranging from general to domain-specific tasks. This includes 11 datasets
focused solely on language, as well as one that incorporates multimodal
elements. Our experiments across four LLMs and two MLLMs demonstrate Gemini's
competitive commonsense reasoning capabilities. Additionally, we identify
common challenges faced by current LLMs and MLLMs in addressing commonsense
problems, underscoring the need for further advancements in enhancing the
commonsense reasoning abilities of these models.