¿Un rival para GPT-4V? Primeras exploraciones de Gemini en competencia visual

Resumen

El creciente interés hacia los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés), como GPT-4V(isión) de OpenAI, ha marcado una tendencia significativa tanto en el ámbito académico como en la industria. Estos modelos dotan a los Modelos de Lenguaje de Gran Escala (LLMs) de capacidades avanzadas en comprensión visual, permitiéndoles abordar diversas tareas multimodales. Recientemente, Google lanzó Gemini, su MLLM más nuevo y potente, diseñado desde cero para la multimodalidad. Dadas sus superiores capacidades de razonamiento, ¿puede Gemini desafiar la posición líder de GPT-4V en el aprendizaje multimodal? En este artículo, presentamos una exploración preliminar de la competencia de Gemini Pro en comprensión visual, que abarca de manera integral cuatro dominios: percepción básica, cognición avanzada, tareas visuales desafiantes y diversas capacidades expertas. Comparamos Gemini Pro con el estado del arte GPT-4V para evaluar sus límites superiores, junto con el MLLM de código abierto más reciente, Sphinx, lo que revela la brecha entre los esfuerzos manuales y los sistemas de caja negra. Las muestras cualitativas indican que, aunque GPT-4V y Gemini muestran estilos y preferencias de respuesta diferentes, pueden exhibir capacidades de razonamiento visual comparables, mientras que Sphinx aún se queda atrás en cuanto a la generalización de dominios. Específicamente, GPT-4V tiende a elaborar explicaciones detalladas y pasos intermedios, mientras que Gemini prefiere ofrecer respuestas directas y concisas. La evaluación cuantitativa en el popular benchmark MME también demuestra el potencial de Gemini para ser un fuerte competidor de GPT-4V. Nuestra investigación temprana sobre Gemini también observa algunos problemas comunes de los MLLMs, lo que indica que aún queda un camino considerable hacia la inteligencia artificial general. Nuestro proyecto para seguir el progreso de los MLLMs está disponible en https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models.

English

The surge of interest towards Multi-modal Large Language Models (MLLMs), e.g., GPT-4V(ision) from OpenAI, has marked a significant trend in both academia and industry. They endow Large Language Models (LLMs) with powerful capabilities in visual understanding, enabling them to tackle diverse multi-modal tasks. Very recently, Google released Gemini, its newest and most capable MLLM built from the ground up for multi-modality. In light of the superior reasoning capabilities, can Gemini challenge GPT-4V's leading position in multi-modal learning? In this paper, we present a preliminary exploration of Gemini Pro's visual understanding proficiency, which comprehensively covers four domains: fundamental perception, advanced cognition, challenging vision tasks, and various expert capacities. We compare Gemini Pro with the state-of-the-art GPT-4V to evaluate its upper limits, along with the latest open-sourced MLLM, Sphinx, which reveals the gap between manual efforts and black-box systems. The qualitative samples indicate that, while GPT-4V and Gemini showcase different answering styles and preferences, they can exhibit comparable visual reasoning capabilities, and Sphinx still trails behind them concerning domain generalizability. Specifically, GPT-4V tends to elaborate detailed explanations and intermediate steps, and Gemini prefers to output a direct and concise answer. The quantitative evaluation on the popular MME benchmark also demonstrates the potential of Gemini to be a strong challenger to GPT-4V. Our early investigation of Gemini also observes some common issues of MLLMs, indicating that there still remains a considerable distance towards artificial general intelligence. Our project for tracking the progress of MLLM is released at https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models.

¿Un rival para GPT-4V? Primeras exploraciones de Gemini en competencia visual

A Challenger to GPT-4V? Early Explorations of Gemini in Visual Expertise

Resumen

Support