Gemini contre GPT-4V : Une comparaison préliminaire et une combinaison de modèles vision-langage à travers des cas qualitatifs
Gemini vs GPT-4V: A Preliminary Comparison and Combination of Vision-Language Models Through Qualitative Cases
December 22, 2023
Auteurs: Zhangyang Qi, Ye Fang, Mengchen Zhang, Zeyi Sun, Tong Wu, Ziwei Liu, Dahua Lin, Jiaqi Wang, Hengshuang Zhao
cs.AI
Résumé
Le secteur en pleine évolution des modèles de langage multimodaux de grande envergure (MLLMs) est à l'avant-garde de l'intégration du traitement linguistique et visuel dans l'intelligence artificielle. Cet article présente une étude comparative approfondie de deux modèles pionniers : Gemini de Google et GPT-4V(ision) d'OpenAI. Notre étude implique une évaluation multidimensionnelle des deux modèles sur des dimensions clés telles que la capacité vision-langage, l'interaction avec les humains, la compréhension temporelle, ainsi que des évaluations des quotients intellectuel et émotionnel. Le cœur de notre analyse se penche sur les capacités distinctes de compréhension visuelle de chaque modèle. Nous avons mené une série d'expériences structurées pour évaluer leurs performances dans divers scénarios d'applications industrielles, offrant une perspective complète sur leur utilité pratique. Nous incluons non seulement des comparaisons directes de performances, mais également des ajustements dans les prompts et les scénarios pour garantir une analyse équilibrée et juste. Nos résultats mettent en lumière les forces et les niches uniques des deux modèles. GPT-4V se distingue par la précision et la concision de ses réponses, tandis que Gemini excelle dans la fourniture de réponses détaillées et expansives accompagnées d'images et de liens pertinents. Ces compréhensions éclairent non seulement les mérites comparatifs de Gemini et GPT-4V, mais soulignent également l'évolution du paysage des modèles de fondation multimodaux, ouvrant la voie à de futures avancées dans ce domaine. Après la comparaison, nous avons tenté d'obtenir de meilleurs résultats en combinant les deux modèles. Enfin, nous tenons à exprimer notre profonde gratitude aux équipes derrière GPT-4V et Gemini pour leurs contributions pionnières dans ce domaine. Nos remerciements s'étendent également à l'analyse qualitative exhaustive présentée dans 'Dawn' par Yang et al. Ce travail, avec sa vaste collection d'échantillons d'images, de prompts et de résultats liés à GPT-4V, a fourni une base fondamentale pour notre analyse.
English
The rapidly evolving sector of Multi-modal Large Language Models (MLLMs) is
at the forefront of integrating linguistic and visual processing in artificial
intelligence. This paper presents an in-depth comparative study of two
pioneering models: Google's Gemini and OpenAI's GPT-4V(ision). Our study
involves a multi-faceted evaluation of both models across key dimensions such
as Vision-Language Capability, Interaction with Humans, Temporal Understanding,
and assessments in both Intelligence and Emotional Quotients. The core of our
analysis delves into the distinct visual comprehension abilities of each model.
We conducted a series of structured experiments to evaluate their performance
in various industrial application scenarios, offering a comprehensive
perspective on their practical utility. We not only involve direct performance
comparisons but also include adjustments in prompts and scenarios to ensure a
balanced and fair analysis. Our findings illuminate the unique strengths and
niches of both models. GPT-4V distinguishes itself with its precision and
succinctness in responses, while Gemini excels in providing detailed, expansive
answers accompanied by relevant imagery and links. These understandings not
only shed light on the comparative merits of Gemini and GPT-4V but also
underscore the evolving landscape of multimodal foundation models, paving the
way for future advancements in this area. After the comparison, we attempted to
achieve better results by combining the two models. Finally, We would like to
express our profound gratitude to the teams behind GPT-4V and Gemini for their
pioneering contributions to the field. Our acknowledgments are also extended to
the comprehensive qualitative analysis presented in 'Dawn' by Yang et al. This
work, with its extensive collection of image samples, prompts, and
GPT-4V-related results, provided a foundational basis for our analysis.