Gemini vs GPT-4V: Предварительное сравнение и комбинирование визуально-языковых моделей на основе качественных примеров
Gemini vs GPT-4V: A Preliminary Comparison and Combination of Vision-Language Models Through Qualitative Cases
December 22, 2023
Авторы: Zhangyang Qi, Ye Fang, Mengchen Zhang, Zeyi Sun, Tong Wu, Ziwei Liu, Dahua Lin, Jiaqi Wang, Hengshuang Zhao
cs.AI
Аннотация
Быстро развивающаяся область мультимодальных больших языковых моделей (MLLMs) находится на переднем крае интеграции лингвистической и визуальной обработки в искусственном интеллекте. В данной статье представлено углубленное сравнительное исследование двух передовых моделей: Gemini от Google и GPT-4V(ision) от OpenAI. Наше исследование включает многогранную оценку обеих моделей по ключевым направлениям, таким как способность к обработке визуально-языковой информации, взаимодействие с людьми, понимание временных аспектов, а также оценка интеллектуального и эмоционального коэффициентов. Основное внимание в нашем анализе уделено уникальным способностям каждой модели к визуальному восприятию. Мы провели серию структурированных экспериментов для оценки их производительности в различных сценариях промышленного применения, предлагая всесторонний взгляд на их практическую полезность. Мы не только сравниваем их прямую производительность, но также вносим изменения в запросы и сценарии, чтобы обеспечить сбалансированный и справедливый анализ. Наши результаты выявляют уникальные сильные стороны и ниши обеих моделей. GPT-4V выделяется своей точностью и лаконичностью ответов, в то время как Gemini превосходит в предоставлении детализированных, развернутых ответов, сопровождаемых соответствующими изображениями и ссылками. Эти выводы не только проливают свет на сравнительные достоинства Gemini и GPT-4V, но также подчеркивают эволюцию ландшафта мультимодальных базовых моделей, прокладывая путь для будущих достижений в этой области. После сравнения мы попытались достичь лучших результатов, комбинируя обе модели. В заключение, мы хотели бы выразить глубокую благодарность командам, стоящим за GPT-4V и Gemini, за их новаторский вклад в эту область. Мы также выражаем признательность за всесторонний качественный анализ, представленный в работе "Dawn" Янга и его коллег. Эта работа, с ее обширной коллекцией образцов изображений, запросов и результатов, связанных с GPT-4V, послужила основой для нашего анализа.
English
The rapidly evolving sector of Multi-modal Large Language Models (MLLMs) is
at the forefront of integrating linguistic and visual processing in artificial
intelligence. This paper presents an in-depth comparative study of two
pioneering models: Google's Gemini and OpenAI's GPT-4V(ision). Our study
involves a multi-faceted evaluation of both models across key dimensions such
as Vision-Language Capability, Interaction with Humans, Temporal Understanding,
and assessments in both Intelligence and Emotional Quotients. The core of our
analysis delves into the distinct visual comprehension abilities of each model.
We conducted a series of structured experiments to evaluate their performance
in various industrial application scenarios, offering a comprehensive
perspective on their practical utility. We not only involve direct performance
comparisons but also include adjustments in prompts and scenarios to ensure a
balanced and fair analysis. Our findings illuminate the unique strengths and
niches of both models. GPT-4V distinguishes itself with its precision and
succinctness in responses, while Gemini excels in providing detailed, expansive
answers accompanied by relevant imagery and links. These understandings not
only shed light on the comparative merits of Gemini and GPT-4V but also
underscore the evolving landscape of multimodal foundation models, paving the
way for future advancements in this area. After the comparison, we attempted to
achieve better results by combining the two models. Finally, We would like to
express our profound gratitude to the teams behind GPT-4V and Gemini for their
pioneering contributions to the field. Our acknowledgments are also extended to
the comprehensive qualitative analysis presented in 'Dawn' by Yang et al. This
work, with its extensive collection of image samples, prompts, and
GPT-4V-related results, provided a foundational basis for our analysis.