Gemini nel Ragionamento: Svelare il Senso Comune nei Modelli Linguistici Multimodali di Grande Scala

Abstract

Il crescente interesse per i Modelli Linguistici Multimodali di Grande Scala (MLLMs), come GPT-4V(ision) di OpenAI, ha avuto un impatto significativo sia in ambito accademico che industriale. Questi modelli potenziano i Modelli Linguistici di Grande Scala (LLMs) con capacità avanzate di comprensione visiva, facilitando la loro applicazione in una varietà di compiti multimodali. Recentemente, Google ha introdotto Gemini, un MLLM all'avanguardia progettato specificamente per l'integrazione multimodale. Nonostante i suoi progressi, i benchmark preliminari indicano che Gemini è in ritardo rispetto ai modelli GPT nei compiti di ragionamento basato sul senso comune. Tuttavia, questa valutazione, basata su un dataset limitato (ad esempio, HellaSWAG), non cattura appieno il potenziale autentico di ragionamento basato sul senso comune di Gemini. Per colmare questa lacuna, il nostro studio intraprende una valutazione approfondita delle prestazioni di Gemini in compiti di ragionamento complesso che richiedono l'integrazione di conoscenza di senso comune attraverso le modalità. Eseguiamo un'analisi completa di 12 dataset di ragionamento basato sul senso comune, che spaziano da compiti generali a compiti specifici di dominio. Questo include 11 dataset focalizzati esclusivamente sul linguaggio, oltre a uno che incorpora elementi multimodali. I nostri esperimenti su quattro LLMs e due MLLMs dimostrano le capacità competitive di Gemini nel ragionamento basato sul senso comune. Inoltre, identifichiamo le sfide comuni affrontate dagli attuali LLMs e MLLMs nel risolvere problemi di senso comune, sottolineando la necessità di ulteriori progressi nel migliorare le capacità di ragionamento basato sul senso comune di questi modelli.

English

The burgeoning interest in Multimodal Large Language Models (MLLMs), such as OpenAI's GPT-4V(ision), has significantly impacted both academic and industrial realms. These models enhance Large Language Models (LLMs) with advanced visual understanding capabilities, facilitating their application in a variety of multimodal tasks. Recently, Google introduced Gemini, a cutting-edge MLLM designed specifically for multimodal integration. Despite its advancements, preliminary benchmarks indicate that Gemini lags behind GPT models in commonsense reasoning tasks. However, this assessment, based on a limited dataset (i.e., HellaSWAG), does not fully capture Gemini's authentic commonsense reasoning potential. To address this gap, our study undertakes a thorough evaluation of Gemini's performance in complex reasoning tasks that necessitate the integration of commonsense knowledge across modalities. We carry out a comprehensive analysis of 12 commonsense reasoning datasets, ranging from general to domain-specific tasks. This includes 11 datasets focused solely on language, as well as one that incorporates multimodal elements. Our experiments across four LLMs and two MLLMs demonstrate Gemini's competitive commonsense reasoning capabilities. Additionally, we identify common challenges faced by current LLMs and MLLMs in addressing commonsense problems, underscoring the need for further advancements in enhancing the commonsense reasoning abilities of these models.

Gemini nel Ragionamento: Svelare il Senso Comune nei Modelli Linguistici Multimodali di Grande Scala

Gemini in Reasoning: Unveiling Commonsense in Multimodal Large Language Models

Abstract

Support