ChatPaper.aiChatPaper

Gemini im Denken: Enthüllung von gesundem Menschenverstand in multimodalen großen Sprachmodellen

Gemini in Reasoning: Unveiling Commonsense in Multimodal Large Language Models

December 29, 2023
Autoren: Yuqing Wang, Yun Zhao
cs.AI

Zusammenfassung

Das wachsende Interesse an Multimodalen Großen Sprachmodellen (MLLMs), wie beispielsweise OpenAI's GPT-4V(ision), hat sowohl akademische als auch industrielle Bereiche erheblich beeinflusst. Diese Modelle erweitern Große Sprachmodelle (LLMs) um fortgeschrittene Fähigkeiten zur visuellen Verständnisbildung und erleichtern deren Anwendung in einer Vielzahl multimodaler Aufgaben. Kürzlich hat Google Gemini vorgestellt, ein modernstes MLLM, das speziell für die multimodale Integration entwickelt wurde. Trotz seiner Fortschritte zeigen vorläufige Benchmarks, dass Gemini bei Aufgaben des gesunden Menschenverstands hinter GPT-Modellen zurückbleibt. Diese Bewertung, die auf einem begrenzten Datensatz (d.h. HellaSWAG) basiert, erfasst jedoch nicht vollständig das authentische Potenzial von Gemini im Bereich des gesunden Menschenverstands. Um diese Lücke zu schließen, unternimmt unsere Studie eine umfassende Bewertung der Leistung von Gemini bei komplexen Denkaufgaben, die die Integration von gesundem Menschenverstand über verschiedene Modalitäten hinweg erfordern. Wir führen eine detaillierte Analyse von 12 Datensätzen zum gesunden Menschenverstand durch, die von allgemeinen bis zu domänenspezifischen Aufgaben reichen. Dies umfasst 11 Datensätze, die sich ausschließlich auf Sprache konzentrieren, sowie einen, der multimodale Elemente einbezieht. Unsere Experimente mit vier LLMs und zwei MLLMs demonstrieren die wettbewerbsfähigen Fähigkeiten von Gemini im Bereich des gesunden Menschenverstands. Zusätzlich identifizieren wir gemeinsame Herausforderungen, denen aktuelle LLMs und MLLMs bei der Bewältigung von Problemen des gesunden Menschenverstands gegenüberstehen, und betonen die Notwendigkeit weiterer Fortschritte bei der Verbesserung der Fähigkeiten dieser Modelle im Bereich des gesunden Menschenverstands.
English
The burgeoning interest in Multimodal Large Language Models (MLLMs), such as OpenAI's GPT-4V(ision), has significantly impacted both academic and industrial realms. These models enhance Large Language Models (LLMs) with advanced visual understanding capabilities, facilitating their application in a variety of multimodal tasks. Recently, Google introduced Gemini, a cutting-edge MLLM designed specifically for multimodal integration. Despite its advancements, preliminary benchmarks indicate that Gemini lags behind GPT models in commonsense reasoning tasks. However, this assessment, based on a limited dataset (i.e., HellaSWAG), does not fully capture Gemini's authentic commonsense reasoning potential. To address this gap, our study undertakes a thorough evaluation of Gemini's performance in complex reasoning tasks that necessitate the integration of commonsense knowledge across modalities. We carry out a comprehensive analysis of 12 commonsense reasoning datasets, ranging from general to domain-specific tasks. This includes 11 datasets focused solely on language, as well as one that incorporates multimodal elements. Our experiments across four LLMs and two MLLMs demonstrate Gemini's competitive commonsense reasoning capabilities. Additionally, we identify common challenges faced by current LLMs and MLLMs in addressing commonsense problems, underscoring the need for further advancements in enhancing the commonsense reasoning abilities of these models.
PDF151December 15, 2024