Een uitdager voor GPT-4V? Vroege verkenningen van Gemini in visuele expertise

Samenvatting

De groeiende interesse in Multi-modale Grote Taalmodellen (MLLMs), zoals GPT-4V(ision) van OpenAI, heeft een belangrijke trend gemarkeerd in zowel de academische wereld als de industrie. Deze modellen voorzien Grote Taalmodellen (LLMs) van krachtige mogelijkheden in visueel begrip, waardoor ze diverse multi-modale taken kunnen aanpakken. Onlangs heeft Google Gemini uitgebracht, zijn nieuwste en meest capabele MLLM, dat vanaf de grond is opgebouwd voor multi-modaliteit. Gezien de superieure redeneercapaciteiten, kan Gemini GPT-4V's leidende positie in multi-modale learning uitdagen? In dit artikel presenteren we een eerste verkenning van Gemini Pro's vaardigheid in visueel begrip, dat vier domeinen omvat: fundamentele perceptie, geavanceerde cognitie, uitdagende visietaken en diverse expertcapaciteiten. We vergelijken Gemini Pro met de state-of-the-art GPT-4V om de bovengrenzen ervan te evalueren, samen met het nieuwste open-source MLLM, Sphinx, dat de kloof tussen handmatige inspanningen en black-box systemen onthult. De kwalitatieve voorbeelden geven aan dat, hoewel GPT-4V en Gemini verschillende antwoordstijlen en voorkeuren vertonen, ze vergelijkbare visuele redeneercapaciteiten kunnen tonen, en Sphinx nog steeds achterblijft wat betreft domeingeneraliseerbaarheid. Specifiek heeft GPT-4V de neiging om gedetailleerde uitleg en tussenstappen te geven, terwijl Gemini de voorkeur geeft aan een direct en beknopt antwoord. De kwantitatieve evaluatie op de populaire MME-benchmark toont ook het potentieel van Gemini aan als een sterke uitdager van GPT-4V. Ons vroege onderzoek naar Gemini observeert ook enkele veelvoorkomende problemen van MLLMs, wat aangeeft dat er nog steeds een aanzienlijke afstand is tot kunstmatige algemene intelligentie. Ons project voor het volgen van de voortgang van MLLM is vrijgegeven op https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models.

English

The surge of interest towards Multi-modal Large Language Models (MLLMs), e.g., GPT-4V(ision) from OpenAI, has marked a significant trend in both academia and industry. They endow Large Language Models (LLMs) with powerful capabilities in visual understanding, enabling them to tackle diverse multi-modal tasks. Very recently, Google released Gemini, its newest and most capable MLLM built from the ground up for multi-modality. In light of the superior reasoning capabilities, can Gemini challenge GPT-4V's leading position in multi-modal learning? In this paper, we present a preliminary exploration of Gemini Pro's visual understanding proficiency, which comprehensively covers four domains: fundamental perception, advanced cognition, challenging vision tasks, and various expert capacities. We compare Gemini Pro with the state-of-the-art GPT-4V to evaluate its upper limits, along with the latest open-sourced MLLM, Sphinx, which reveals the gap between manual efforts and black-box systems. The qualitative samples indicate that, while GPT-4V and Gemini showcase different answering styles and preferences, they can exhibit comparable visual reasoning capabilities, and Sphinx still trails behind them concerning domain generalizability. Specifically, GPT-4V tends to elaborate detailed explanations and intermediate steps, and Gemini prefers to output a direct and concise answer. The quantitative evaluation on the popular MME benchmark also demonstrates the potential of Gemini to be a strong challenger to GPT-4V. Our early investigation of Gemini also observes some common issues of MLLMs, indicating that there still remains a considerable distance towards artificial general intelligence. Our project for tracking the progress of MLLM is released at https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models.

Een uitdager voor GPT-4V? Vroege verkenningen van Gemini in visuele expertise

A Challenger to GPT-4V? Early Explorations of Gemini in Visual Expertise

Samenvatting

Support