Un concurrent pour GPT-4V ? Premières explorations de Gemini dans l'expertise visuelle

papers.abstract

L'engouement croissant pour les modèles de langage multi-modaux de grande taille (MLLMs), tels que GPT-4V(ision) d'OpenAI, marque une tendance significative tant dans le milieu académique que dans l'industrie. Ces modèles dotent les grands modèles de langage (LLMs) de puissantes capacités de compréhension visuelle, leur permettant de s'attaquer à diverses tâches multi-modales. Très récemment, Google a dévoilé Gemini, son MLLM le plus récent et le plus performant, conçu dès le départ pour la multi-modalité. Compte tenu de ses capacités de raisonnement supérieures, Gemini peut-il défier la position dominante de GPT-4V dans l'apprentissage multi-modal ? Dans cet article, nous présentons une exploration préliminaire de la compétence de compréhension visuelle de Gemini Pro, qui couvre de manière exhaustive quatre domaines : la perception fondamentale, la cognition avancée, les tâches visuelles complexes et diverses capacités expertes. Nous comparons Gemini Pro avec le GPT-4V, l'état de l'art, pour évaluer ses limites supérieures, ainsi qu'avec le dernier MLLM open-source, Sphinx, ce qui révèle l'écart entre les efforts manuels et les systèmes en boîte noire. Les échantillons qualitatifs indiquent que, bien que GPT-4V et Gemini présentent des styles et des préférences de réponse différents, ils peuvent montrer des capacités de raisonnement visuel comparables, tandis que Sphinx reste à la traîne en ce qui concerne la généralisation des domaines. Plus précisément, GPT-4V a tendance à élaborer des explications détaillées et des étapes intermédiaires, tandis que Gemini préfère fournir une réponse directe et concise. L'évaluation quantitative sur le benchmark populaire MME démontre également le potentiel de Gemini à devenir un sérieux challenger pour GPT-4V. Notre investigation précoce de Gemini met également en lumière certains problèmes communs aux MLLMs, indiquant qu'il reste encore un chemin considérable à parcourir pour atteindre l'intelligence artificielle générale. Notre projet de suivi des progrès des MLLM est disponible à l'adresse suivante : https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models.

English

The surge of interest towards Multi-modal Large Language Models (MLLMs), e.g., GPT-4V(ision) from OpenAI, has marked a significant trend in both academia and industry. They endow Large Language Models (LLMs) with powerful capabilities in visual understanding, enabling them to tackle diverse multi-modal tasks. Very recently, Google released Gemini, its newest and most capable MLLM built from the ground up for multi-modality. In light of the superior reasoning capabilities, can Gemini challenge GPT-4V's leading position in multi-modal learning? In this paper, we present a preliminary exploration of Gemini Pro's visual understanding proficiency, which comprehensively covers four domains: fundamental perception, advanced cognition, challenging vision tasks, and various expert capacities. We compare Gemini Pro with the state-of-the-art GPT-4V to evaluate its upper limits, along with the latest open-sourced MLLM, Sphinx, which reveals the gap between manual efforts and black-box systems. The qualitative samples indicate that, while GPT-4V and Gemini showcase different answering styles and preferences, they can exhibit comparable visual reasoning capabilities, and Sphinx still trails behind them concerning domain generalizability. Specifically, GPT-4V tends to elaborate detailed explanations and intermediate steps, and Gemini prefers to output a direct and concise answer. The quantitative evaluation on the popular MME benchmark also demonstrates the potential of Gemini to be a strong challenger to GPT-4V. Our early investigation of Gemini also observes some common issues of MLLMs, indicating that there still remains a considerable distance towards artificial general intelligence. Our project for tracking the progress of MLLM is released at https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models.

Un concurrent pour GPT-4V ? Premières explorations de Gemini dans l'expertise visuelle

A Challenger to GPT-4V? Early Explorations of Gemini in Visual Expertise

papers.abstract

Support