Un concurrent pour GPT-4V ? Premières explorations de Gemini dans l'expertise visuelle
A Challenger to GPT-4V? Early Explorations of Gemini in Visual Expertise
December 19, 2023
Auteurs: Chaoyou Fu, Renrui Zhang, Haojia Lin, Zihan Wang, Timin Gao, Yongdong Luo, Yubo Huang, Zhengye Zhang, Longtian Qiu, Gaoxiang Ye, Yunhang Shen, Mengdan Zhang, Peixian Chen, Sirui Zhao, Xiawu Zheng, Shaohui Lin, Deqiang Jiang, Di Yin, Peng Gao, Ke Li, Xing Sun, Rongrong Ji
cs.AI
Résumé
L'engouement croissant pour les modèles de langage multi-modaux de grande taille (MLLMs), tels que GPT-4V(ision) d'OpenAI, marque une tendance significative tant dans le milieu académique que dans l'industrie. Ces modèles dotent les grands modèles de langage (LLMs) de puissantes capacités de compréhension visuelle, leur permettant de s'attaquer à diverses tâches multi-modales. Très récemment, Google a dévoilé Gemini, son MLLM le plus récent et le plus performant, conçu dès le départ pour la multi-modalité. Compte tenu de ses capacités de raisonnement supérieures, Gemini peut-il défier la position dominante de GPT-4V dans l'apprentissage multi-modal ? Dans cet article, nous présentons une exploration préliminaire de la compétence de compréhension visuelle de Gemini Pro, qui couvre de manière exhaustive quatre domaines : la perception fondamentale, la cognition avancée, les tâches visuelles complexes et diverses capacités expertes. Nous comparons Gemini Pro avec le GPT-4V, l'état de l'art, pour évaluer ses limites supérieures, ainsi qu'avec le dernier MLLM open-source, Sphinx, ce qui révèle l'écart entre les efforts manuels et les systèmes en boîte noire. Les échantillons qualitatifs indiquent que, bien que GPT-4V et Gemini présentent des styles et des préférences de réponse différents, ils peuvent montrer des capacités de raisonnement visuel comparables, tandis que Sphinx reste à la traîne en ce qui concerne la généralisation des domaines. Plus précisément, GPT-4V a tendance à élaborer des explications détaillées et des étapes intermédiaires, tandis que Gemini préfère fournir une réponse directe et concise. L'évaluation quantitative sur le benchmark populaire MME démontre également le potentiel de Gemini à devenir un sérieux challenger pour GPT-4V. Notre investigation précoce de Gemini met également en lumière certains problèmes communs aux MLLMs, indiquant qu'il reste encore un chemin considérable à parcourir pour atteindre l'intelligence artificielle générale. Notre projet de suivi des progrès des MLLM est disponible à l'adresse suivante : https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models.
English
The surge of interest towards Multi-modal Large Language Models (MLLMs),
e.g., GPT-4V(ision) from OpenAI, has marked a significant trend in both
academia and industry. They endow Large Language Models (LLMs) with powerful
capabilities in visual understanding, enabling them to tackle diverse
multi-modal tasks. Very recently, Google released Gemini, its newest and most
capable MLLM built from the ground up for multi-modality. In light of the
superior reasoning capabilities, can Gemini challenge GPT-4V's leading position
in multi-modal learning? In this paper, we present a preliminary exploration of
Gemini Pro's visual understanding proficiency, which comprehensively covers
four domains: fundamental perception, advanced cognition, challenging vision
tasks, and various expert capacities. We compare Gemini Pro with the
state-of-the-art GPT-4V to evaluate its upper limits, along with the latest
open-sourced MLLM, Sphinx, which reveals the gap between manual efforts and
black-box systems. The qualitative samples indicate that, while GPT-4V and
Gemini showcase different answering styles and preferences, they can exhibit
comparable visual reasoning capabilities, and Sphinx still trails behind them
concerning domain generalizability. Specifically, GPT-4V tends to elaborate
detailed explanations and intermediate steps, and Gemini prefers to output a
direct and concise answer. The quantitative evaluation on the popular MME
benchmark also demonstrates the potential of Gemini to be a strong challenger
to GPT-4V. Our early investigation of Gemini also observes some common issues
of MLLMs, indicating that there still remains a considerable distance towards
artificial general intelligence. Our project for tracking the progress of MLLM
is released at
https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models.