ChatPaper.aiChatPaper

Gemini in Redeneren: Het Onthullen van Gezond Verstand in Multimodale Grote Taalmodellen

Gemini in Reasoning: Unveiling Commonsense in Multimodal Large Language Models

December 29, 2023
Auteurs: Yuqing Wang, Yun Zhao
cs.AI

Samenvatting

De groeiende interesse in Multimodale Large Language Models (MLLMs), zoals OpenAI's GPT-4V(ision), heeft een aanzienlijke impact gehad op zowel academische als industriële domeinen. Deze modellen verrijken Large Language Models (LLMs) met geavanceerde visuele begripscapaciteiten, waardoor hun toepassing in diverse multimodale taken wordt vergemakkelijkt. Onlangs introduceerde Google Gemini, een state-of-the-art MLLM dat specifiek is ontworpen voor multimodale integratie. Ondanks zijn vooruitgang, geven eerste benchmarks aan dat Gemini achterblijft bij GPT-modellen in taken die gezond verstand vereisen. Deze beoordeling, gebaseerd op een beperkte dataset (d.w.z. HellaSWAG), geeft echter niet volledig weer wat het werkelijke potentieel van Gemini is op het gebied van gezond verstand. Om dit hiaat aan te pakken, onderneemt onze studie een grondige evaluatie van de prestaties van Gemini in complexe redeneertaken die de integratie van gezond verstand over verschillende modaliteiten vereisen. We voeren een uitgebreide analyse uit van 12 datasets voor gezond verstand, variërend van algemene tot domeinspecifieke taken. Dit omvat 11 datasets die zich uitsluitend op taal richten, evenals één dataset die multimodale elementen bevat. Onze experimenten met vier LLMs en twee MLLMs tonen de competitieve redeneercapaciteiten van Gemini op het gebied van gezond verstand. Daarnaast identificeren we gemeenschappelijke uitdagingen waar huidige LLMs en MLLMs tegenaan lopen bij het aanpakken van problemen die gezond verstand vereisen, wat de noodzaak benadrukt van verdere vooruitgang in het verbeteren van de redeneercapaciteiten van deze modellen.
English
The burgeoning interest in Multimodal Large Language Models (MLLMs), such as OpenAI's GPT-4V(ision), has significantly impacted both academic and industrial realms. These models enhance Large Language Models (LLMs) with advanced visual understanding capabilities, facilitating their application in a variety of multimodal tasks. Recently, Google introduced Gemini, a cutting-edge MLLM designed specifically for multimodal integration. Despite its advancements, preliminary benchmarks indicate that Gemini lags behind GPT models in commonsense reasoning tasks. However, this assessment, based on a limited dataset (i.e., HellaSWAG), does not fully capture Gemini's authentic commonsense reasoning potential. To address this gap, our study undertakes a thorough evaluation of Gemini's performance in complex reasoning tasks that necessitate the integration of commonsense knowledge across modalities. We carry out a comprehensive analysis of 12 commonsense reasoning datasets, ranging from general to domain-specific tasks. This includes 11 datasets focused solely on language, as well as one that incorporates multimodal elements. Our experiments across four LLMs and two MLLMs demonstrate Gemini's competitive commonsense reasoning capabilities. Additionally, we identify common challenges faced by current LLMs and MLLMs in addressing commonsense problems, underscoring the need for further advancements in enhancing the commonsense reasoning abilities of these models.
PDF151February 9, 2026