Een uitdager voor GPT-4V? Vroege verkenningen van Gemini in visuele expertise
A Challenger to GPT-4V? Early Explorations of Gemini in Visual Expertise
December 19, 2023
Auteurs: Chaoyou Fu, Renrui Zhang, Haojia Lin, Zihan Wang, Timin Gao, Yongdong Luo, Yubo Huang, Zhengye Zhang, Longtian Qiu, Gaoxiang Ye, Yunhang Shen, Mengdan Zhang, Peixian Chen, Sirui Zhao, Xiawu Zheng, Shaohui Lin, Deqiang Jiang, Di Yin, Peng Gao, Ke Li, Xing Sun, Rongrong Ji
cs.AI
Samenvatting
De groeiende interesse in Multi-modale Grote Taalmodellen (MLLMs), zoals GPT-4V(ision) van OpenAI, heeft een belangrijke trend gemarkeerd in zowel de academische wereld als de industrie. Deze modellen voorzien Grote Taalmodellen (LLMs) van krachtige mogelijkheden in visueel begrip, waardoor ze diverse multi-modale taken kunnen aanpakken. Onlangs heeft Google Gemini uitgebracht, zijn nieuwste en meest capabele MLLM, dat vanaf de grond is opgebouwd voor multi-modaliteit. Gezien de superieure redeneercapaciteiten, kan Gemini GPT-4V's leidende positie in multi-modale learning uitdagen? In dit artikel presenteren we een eerste verkenning van Gemini Pro's vaardigheid in visueel begrip, dat vier domeinen omvat: fundamentele perceptie, geavanceerde cognitie, uitdagende visietaken en diverse expertcapaciteiten. We vergelijken Gemini Pro met de state-of-the-art GPT-4V om de bovengrenzen ervan te evalueren, samen met het nieuwste open-source MLLM, Sphinx, dat de kloof tussen handmatige inspanningen en black-box systemen onthult. De kwalitatieve voorbeelden geven aan dat, hoewel GPT-4V en Gemini verschillende antwoordstijlen en voorkeuren vertonen, ze vergelijkbare visuele redeneercapaciteiten kunnen tonen, en Sphinx nog steeds achterblijft wat betreft domeingeneraliseerbaarheid. Specifiek heeft GPT-4V de neiging om gedetailleerde uitleg en tussenstappen te geven, terwijl Gemini de voorkeur geeft aan een direct en beknopt antwoord. De kwantitatieve evaluatie op de populaire MME-benchmark toont ook het potentieel van Gemini aan als een sterke uitdager van GPT-4V. Ons vroege onderzoek naar Gemini observeert ook enkele veelvoorkomende problemen van MLLMs, wat aangeeft dat er nog steeds een aanzienlijke afstand is tot kunstmatige algemene intelligentie. Ons project voor het volgen van de voortgang van MLLM is vrijgegeven op https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models.
English
The surge of interest towards Multi-modal Large Language Models (MLLMs),
e.g., GPT-4V(ision) from OpenAI, has marked a significant trend in both
academia and industry. They endow Large Language Models (LLMs) with powerful
capabilities in visual understanding, enabling them to tackle diverse
multi-modal tasks. Very recently, Google released Gemini, its newest and most
capable MLLM built from the ground up for multi-modality. In light of the
superior reasoning capabilities, can Gemini challenge GPT-4V's leading position
in multi-modal learning? In this paper, we present a preliminary exploration of
Gemini Pro's visual understanding proficiency, which comprehensively covers
four domains: fundamental perception, advanced cognition, challenging vision
tasks, and various expert capacities. We compare Gemini Pro with the
state-of-the-art GPT-4V to evaluate its upper limits, along with the latest
open-sourced MLLM, Sphinx, which reveals the gap between manual efforts and
black-box systems. The qualitative samples indicate that, while GPT-4V and
Gemini showcase different answering styles and preferences, they can exhibit
comparable visual reasoning capabilities, and Sphinx still trails behind them
concerning domain generalizability. Specifically, GPT-4V tends to elaborate
detailed explanations and intermediate steps, and Gemini prefers to output a
direct and concise answer. The quantitative evaluation on the popular MME
benchmark also demonstrates the potential of Gemini to be a strong challenger
to GPT-4V. Our early investigation of Gemini also observes some common issues
of MLLMs, indicating that there still remains a considerable distance towards
artificial general intelligence. Our project for tracking the progress of MLLM
is released at
https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models.