¿Un rival para GPT-4V? Primeras exploraciones de Gemini en competencia visual
A Challenger to GPT-4V? Early Explorations of Gemini in Visual Expertise
December 19, 2023
Autores: Chaoyou Fu, Renrui Zhang, Haojia Lin, Zihan Wang, Timin Gao, Yongdong Luo, Yubo Huang, Zhengye Zhang, Longtian Qiu, Gaoxiang Ye, Yunhang Shen, Mengdan Zhang, Peixian Chen, Sirui Zhao, Xiawu Zheng, Shaohui Lin, Deqiang Jiang, Di Yin, Peng Gao, Ke Li, Xing Sun, Rongrong Ji
cs.AI
Resumen
El creciente interés hacia los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés), como GPT-4V(isión) de OpenAI, ha marcado una tendencia significativa tanto en el ámbito académico como en la industria. Estos modelos dotan a los Modelos de Lenguaje de Gran Escala (LLMs) de capacidades avanzadas en comprensión visual, permitiéndoles abordar diversas tareas multimodales. Recientemente, Google lanzó Gemini, su MLLM más nuevo y potente, diseñado desde cero para la multimodalidad. Dadas sus superiores capacidades de razonamiento, ¿puede Gemini desafiar la posición líder de GPT-4V en el aprendizaje multimodal? En este artículo, presentamos una exploración preliminar de la competencia de Gemini Pro en comprensión visual, que abarca de manera integral cuatro dominios: percepción básica, cognición avanzada, tareas visuales desafiantes y diversas capacidades expertas. Comparamos Gemini Pro con el estado del arte GPT-4V para evaluar sus límites superiores, junto con el MLLM de código abierto más reciente, Sphinx, lo que revela la brecha entre los esfuerzos manuales y los sistemas de caja negra. Las muestras cualitativas indican que, aunque GPT-4V y Gemini muestran estilos y preferencias de respuesta diferentes, pueden exhibir capacidades de razonamiento visual comparables, mientras que Sphinx aún se queda atrás en cuanto a la generalización de dominios. Específicamente, GPT-4V tiende a elaborar explicaciones detalladas y pasos intermedios, mientras que Gemini prefiere ofrecer respuestas directas y concisas. La evaluación cuantitativa en el popular benchmark MME también demuestra el potencial de Gemini para ser un fuerte competidor de GPT-4V. Nuestra investigación temprana sobre Gemini también observa algunos problemas comunes de los MLLMs, lo que indica que aún queda un camino considerable hacia la inteligencia artificial general. Nuestro proyecto para seguir el progreso de los MLLMs está disponible en https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models.
English
The surge of interest towards Multi-modal Large Language Models (MLLMs),
e.g., GPT-4V(ision) from OpenAI, has marked a significant trend in both
academia and industry. They endow Large Language Models (LLMs) with powerful
capabilities in visual understanding, enabling them to tackle diverse
multi-modal tasks. Very recently, Google released Gemini, its newest and most
capable MLLM built from the ground up for multi-modality. In light of the
superior reasoning capabilities, can Gemini challenge GPT-4V's leading position
in multi-modal learning? In this paper, we present a preliminary exploration of
Gemini Pro's visual understanding proficiency, which comprehensively covers
four domains: fundamental perception, advanced cognition, challenging vision
tasks, and various expert capacities. We compare Gemini Pro with the
state-of-the-art GPT-4V to evaluate its upper limits, along with the latest
open-sourced MLLM, Sphinx, which reveals the gap between manual efforts and
black-box systems. The qualitative samples indicate that, while GPT-4V and
Gemini showcase different answering styles and preferences, they can exhibit
comparable visual reasoning capabilities, and Sphinx still trails behind them
concerning domain generalizability. Specifically, GPT-4V tends to elaborate
detailed explanations and intermediate steps, and Gemini prefers to output a
direct and concise answer. The quantitative evaluation on the popular MME
benchmark also demonstrates the potential of Gemini to be a strong challenger
to GPT-4V. Our early investigation of Gemini also observes some common issues
of MLLMs, indicating that there still remains a considerable distance towards
artificial general intelligence. Our project for tracking the progress of MLLM
is released at
https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models.