Gemini vs GPT-4V: Uma Comparação Preliminar e Combinação de Modelos de Visão e Linguagem Através de Casos Qualitativos
Gemini vs GPT-4V: A Preliminary Comparison and Combination of Vision-Language Models Through Qualitative Cases
December 22, 2023
Autores: Zhangyang Qi, Ye Fang, Mengchen Zhang, Zeyi Sun, Tong Wu, Ziwei Liu, Dahua Lin, Jiaqi Wang, Hengshuang Zhao
cs.AI
Resumo
O setor em rápida evolução dos Modelos de Linguagem Multimodais de Grande Escala (MLLMs) está na vanguarda da integração do processamento linguístico e visual na inteligência artificial. Este artigo apresenta um estudo comparativo detalhado de dois modelos pioneiros: o Gemini, da Google, e o GPT-4V(ision), da OpenAI. Nosso estudo envolve uma avaliação multifacetada de ambos os modelos em dimensões-chave, como Capacidade Visão-Linguagem, Interação com Humanos, Compreensão Temporal e avaliações tanto no Quociente de Inteligência quanto no Quociente Emocional. O cerne de nossa análise se aprofunda nas distintas habilidades de compreensão visual de cada modelo. Realizamos uma série de experimentos estruturados para avaliar seu desempenho em diversos cenários de aplicação industrial, oferecendo uma perspectiva abrangente sobre sua utilidade prática. Não apenas envolvemos comparações diretas de desempenho, mas também incluímos ajustes em prompts e cenários para garantir uma análise equilibrada e justa. Nossas descobertas iluminam os pontos fortes e nichos únicos de ambos os modelos. O GPT-4V se destaca por sua precisão e concisão nas respostas, enquanto o Gemini se sobressai ao fornecer respostas detalhadas e expansivas, acompanhadas de imagens e links relevantes. Esses entendimentos não apenas esclarecem os méritos comparativos do Gemini e do GPT-4V, mas também destacam o cenário em evolução dos modelos de base multimodal, abrindo caminho para avanços futuros nessa área. Após a comparação, tentamos obter melhores resultados combinando os dois modelos. Por fim, gostaríamos de expressar nossa profunda gratidão às equipes por trás do GPT-4V e do Gemini por suas contribuições pioneiras no campo. Nossos agradecimentos também se estendem à análise qualitativa abrangente apresentada em 'Dawn', de Yang et al. Este trabalho, com sua extensa coleção de amostras de imagens, prompts e resultados relacionados ao GPT-4V, forneceu uma base fundamental para nossa análise.
English
The rapidly evolving sector of Multi-modal Large Language Models (MLLMs) is
at the forefront of integrating linguistic and visual processing in artificial
intelligence. This paper presents an in-depth comparative study of two
pioneering models: Google's Gemini and OpenAI's GPT-4V(ision). Our study
involves a multi-faceted evaluation of both models across key dimensions such
as Vision-Language Capability, Interaction with Humans, Temporal Understanding,
and assessments in both Intelligence and Emotional Quotients. The core of our
analysis delves into the distinct visual comprehension abilities of each model.
We conducted a series of structured experiments to evaluate their performance
in various industrial application scenarios, offering a comprehensive
perspective on their practical utility. We not only involve direct performance
comparisons but also include adjustments in prompts and scenarios to ensure a
balanced and fair analysis. Our findings illuminate the unique strengths and
niches of both models. GPT-4V distinguishes itself with its precision and
succinctness in responses, while Gemini excels in providing detailed, expansive
answers accompanied by relevant imagery and links. These understandings not
only shed light on the comparative merits of Gemini and GPT-4V but also
underscore the evolving landscape of multimodal foundation models, paving the
way for future advancements in this area. After the comparison, we attempted to
achieve better results by combining the two models. Finally, We would like to
express our profound gratitude to the teams behind GPT-4V and Gemini for their
pioneering contributions to the field. Our acknowledgments are also extended to
the comprehensive qualitative analysis presented in 'Dawn' by Yang et al. This
work, with its extensive collection of image samples, prompts, and
GPT-4V-related results, provided a foundational basis for our analysis.