Gemini versus GPT-4V: Een voorlopige vergelijking en combinatie van visie-taalmodelen aan de hand van kwalitatieve casussen
Gemini vs GPT-4V: A Preliminary Comparison and Combination of Vision-Language Models Through Qualitative Cases
December 22, 2023
Auteurs: Zhangyang Qi, Ye Fang, Mengchen Zhang, Zeyi Sun, Tong Wu, Ziwei Liu, Dahua Lin, Jiaqi Wang, Hengshuang Zhao
cs.AI
Samenvatting
De snel evoluerende sector van Multi-modale Grote Taalmodellen (MLLMs) staat aan de voorhoede van de integratie van linguïstische en visuele verwerking in kunstmatige intelligentie. Dit artikel presenteert een diepgaande vergelijkende studie van twee baanbrekende modellen: Google's Gemini en OpenAI's GPT-4V(ision). Onze studie omvat een veelzijdige evaluatie van beide modellen op belangrijke dimensies zoals Visie-Taal Vermogen, Interactie met Mensen, Temporeel Begrip, en beoordelingen op zowel Intelligentie als Emotioneel Quotiënt. De kern van onze analyse verdiept zich in de verschillende visuele begripsvaardigheden van elk model. We hebben een reeks gestructureerde experimenten uitgevoerd om hun prestaties te evalueren in verschillende industriële toepassingsscenario's, wat een uitgebreid perspectief biedt op hun praktische bruikbaarheid. We beperken ons niet alleen tot directe prestatievergelijkingen, maar nemen ook aanpassingen in prompts en scenario's op om een evenwichtige en eerlijke analyse te waarborgen. Onze bevindingen belichten de unieke sterke punten en niches van beide modellen. GPT-4V onderscheidt zich door zijn precisie en beknoptheid in antwoorden, terwijl Gemini uitblinkt in het leveren van gedetailleerde, uitgebreide antwoorden vergezeld van relevante afbeeldingen en links. Deze inzichten werpen niet alleen licht op de vergelijkende verdiensten van Gemini en GPT-4V, maar benadrukken ook het evoluerende landschap van multimodale basis modellen, wat de weg vrijmaakt voor toekomstige vooruitgang op dit gebied. Na de vergelijking hebben we geprobeerd betere resultaten te bereiken door de twee modellen te combineren. Tot slot willen we onze diepe dankbaarheid uitspreken aan de teams achter GPT-4V en Gemini voor hun baanbrekende bijdragen aan het veld. Onze dank gaat ook uit naar de uitgebreide kwalitatieve analyse gepresenteerd in 'Dawn' door Yang et al. Dit werk, met zijn uitgebreide verzameling van beeldmonsters, prompts en GPT-4V-gerelateerde resultaten, vormde een fundamentele basis voor onze analyse.
English
The rapidly evolving sector of Multi-modal Large Language Models (MLLMs) is
at the forefront of integrating linguistic and visual processing in artificial
intelligence. This paper presents an in-depth comparative study of two
pioneering models: Google's Gemini and OpenAI's GPT-4V(ision). Our study
involves a multi-faceted evaluation of both models across key dimensions such
as Vision-Language Capability, Interaction with Humans, Temporal Understanding,
and assessments in both Intelligence and Emotional Quotients. The core of our
analysis delves into the distinct visual comprehension abilities of each model.
We conducted a series of structured experiments to evaluate their performance
in various industrial application scenarios, offering a comprehensive
perspective on their practical utility. We not only involve direct performance
comparisons but also include adjustments in prompts and scenarios to ensure a
balanced and fair analysis. Our findings illuminate the unique strengths and
niches of both models. GPT-4V distinguishes itself with its precision and
succinctness in responses, while Gemini excels in providing detailed, expansive
answers accompanied by relevant imagery and links. These understandings not
only shed light on the comparative merits of Gemini and GPT-4V but also
underscore the evolving landscape of multimodal foundation models, paving the
way for future advancements in this area. After the comparison, we attempted to
achieve better results by combining the two models. Finally, We would like to
express our profound gratitude to the teams behind GPT-4V and Gemini for their
pioneering contributions to the field. Our acknowledgments are also extended to
the comprehensive qualitative analysis presented in 'Dawn' by Yang et al. This
work, with its extensive collection of image samples, prompts, and
GPT-4V-related results, provided a foundational basis for our analysis.