Gemini vs GPT-4V: Una comparación preliminar y combinación de modelos de visión y lenguaje a través de casos cualitativos
Gemini vs GPT-4V: A Preliminary Comparison and Combination of Vision-Language Models Through Qualitative Cases
December 22, 2023
Autores: Zhangyang Qi, Ye Fang, Mengchen Zhang, Zeyi Sun, Tong Wu, Ziwei Liu, Dahua Lin, Jiaqi Wang, Hengshuang Zhao
cs.AI
Resumen
El sector en rápida evolución de los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) se encuentra a la vanguardia de la integración del procesamiento lingüístico y visual en la inteligencia artificial. Este artículo presenta un estudio comparativo en profundidad de dos modelos pioneros: Gemini de Google y GPT-4V(isión) de OpenAI. Nuestro estudio implica una evaluación multifacética de ambos modelos en dimensiones clave como la Capacidad Visión-Lenguaje, la Interacción con Humanos, la Comprensión Temporal y las evaluaciones tanto en Cociente Intelectual como Emocional. El núcleo de nuestro análisis profundiza en las distintas habilidades de comprensión visual de cada modelo. Realizamos una serie de experimentos estructurados para evaluar su desempeño en diversos escenarios de aplicación industrial, ofreciendo una perspectiva integral sobre su utilidad práctica. No solo incluimos comparaciones directas de rendimiento, sino también ajustes en los prompts y escenarios para garantizar un análisis equilibrado y justo. Nuestros hallazgos iluminan las fortalezas y nichos únicos de ambos modelos. GPT-4V se distingue por su precisión y concisión en las respuestas, mientras que Gemini sobresale al proporcionar respuestas detalladas y expansivas acompañadas de imágenes y enlaces relevantes. Estas comprensiones no solo arrojan luz sobre los méritos comparativos de Gemini y GPT-4V, sino que también subrayan el panorama en evolución de los modelos fundamentales multimodales, allanando el camino para futuros avances en esta área. Después de la comparación, intentamos lograr mejores resultados combinando ambos modelos. Finalmente, nos gustaría expresar nuestro profundo agradecimiento a los equipos detrás de GPT-4V y Gemini por sus contribuciones pioneras en el campo. Nuestros agradecimientos también se extienden al análisis cualitativo exhaustivo presentado en 'Dawn' de Yang et al. Este trabajo, con su extensa colección de muestras de imágenes, prompts y resultados relacionados con GPT-4V, proporcionó una base fundamental para nuestro análisis.
English
The rapidly evolving sector of Multi-modal Large Language Models (MLLMs) is
at the forefront of integrating linguistic and visual processing in artificial
intelligence. This paper presents an in-depth comparative study of two
pioneering models: Google's Gemini and OpenAI's GPT-4V(ision). Our study
involves a multi-faceted evaluation of both models across key dimensions such
as Vision-Language Capability, Interaction with Humans, Temporal Understanding,
and assessments in both Intelligence and Emotional Quotients. The core of our
analysis delves into the distinct visual comprehension abilities of each model.
We conducted a series of structured experiments to evaluate their performance
in various industrial application scenarios, offering a comprehensive
perspective on their practical utility. We not only involve direct performance
comparisons but also include adjustments in prompts and scenarios to ensure a
balanced and fair analysis. Our findings illuminate the unique strengths and
niches of both models. GPT-4V distinguishes itself with its precision and
succinctness in responses, while Gemini excels in providing detailed, expansive
answers accompanied by relevant imagery and links. These understandings not
only shed light on the comparative merits of Gemini and GPT-4V but also
underscore the evolving landscape of multimodal foundation models, paving the
way for future advancements in this area. After the comparison, we attempted to
achieve better results by combining the two models. Finally, We would like to
express our profound gratitude to the teams behind GPT-4V and Gemini for their
pioneering contributions to the field. Our acknowledgments are also extended to
the comprehensive qualitative analysis presented in 'Dawn' by Yang et al. This
work, with its extensive collection of image samples, prompts, and
GPT-4V-related results, provided a foundational basis for our analysis.