ChatPaper.aiChatPaper

Gemini в рассуждениях: раскрытие здравого смысла в мультимодальных больших языковых моделях

Gemini in Reasoning: Unveiling Commonsense in Multimodal Large Language Models

December 29, 2023
Авторы: Yuqing Wang, Yun Zhao
cs.AI

Аннотация

Растущий интерес к мультимодальным большим языковым моделям (MLLMs), таким как GPT-4V(ision) от OpenAI, оказал значительное влияние как на академическую, так и на промышленную сферы. Эти модели расширяют возможности больших языковых моделей (LLMs) за счет продвинутого визуального понимания, что способствует их применению в различных мультимодальных задачах. Недавно Google представил Gemini — передовую MLLM, разработанную специально для мультимодальной интеграции. Несмотря на её прогресс, предварительные тесты показывают, что Gemini отстает от моделей GPT в задачах, требующих здравого смысла. Однако эта оценка, основанная на ограниченном наборе данных (например, HellaSWAG), не полностью отражает истинный потенциал Gemini в решении задач, связанных с здравым смыслом. Чтобы устранить этот пробел, наше исследование проводит тщательную оценку производительности Gemini в сложных задачах, требующих интеграции знаний о здравом смысле в различных модальностях. Мы осуществляем всесторонний анализ 12 наборов данных для задач здравого смысла, охватывающих как общие, так и узкоспециализированные задачи. Это включает 11 наборов данных, ориентированных исключительно на язык, а также один, включающий мультимодальные элементы. Наши эксперименты с четырьмя LLMs и двумя MLLMs демонстрируют конкурентоспособные способности Gemini в решении задач, связанных с здравым смыслом. Кроме того, мы выявляем общие проблемы, с которыми сталкиваются современные LLMs и MLLMs при решении задач здравого смысла, подчеркивая необходимость дальнейших улучшений в повышении способностей этих моделей к здравому смыслу.
English
The burgeoning interest in Multimodal Large Language Models (MLLMs), such as OpenAI's GPT-4V(ision), has significantly impacted both academic and industrial realms. These models enhance Large Language Models (LLMs) with advanced visual understanding capabilities, facilitating their application in a variety of multimodal tasks. Recently, Google introduced Gemini, a cutting-edge MLLM designed specifically for multimodal integration. Despite its advancements, preliminary benchmarks indicate that Gemini lags behind GPT models in commonsense reasoning tasks. However, this assessment, based on a limited dataset (i.e., HellaSWAG), does not fully capture Gemini's authentic commonsense reasoning potential. To address this gap, our study undertakes a thorough evaluation of Gemini's performance in complex reasoning tasks that necessitate the integration of commonsense knowledge across modalities. We carry out a comprehensive analysis of 12 commonsense reasoning datasets, ranging from general to domain-specific tasks. This includes 11 datasets focused solely on language, as well as one that incorporates multimodal elements. Our experiments across four LLMs and two MLLMs demonstrate Gemini's competitive commonsense reasoning capabilities. Additionally, we identify common challenges faced by current LLMs and MLLMs in addressing commonsense problems, underscoring the need for further advancements in enhancing the commonsense reasoning abilities of these models.
PDF151December 15, 2024