ChatPaper.aiChatPaper

Ein Herausforderer für GPT-4V? Erste Erkundungen von Gemini in der visuellen Expertise

A Challenger to GPT-4V? Early Explorations of Gemini in Visual Expertise

December 19, 2023
Autoren: Chaoyou Fu, Renrui Zhang, Haojia Lin, Zihan Wang, Timin Gao, Yongdong Luo, Yubo Huang, Zhengye Zhang, Longtian Qiu, Gaoxiang Ye, Yunhang Shen, Mengdan Zhang, Peixian Chen, Sirui Zhao, Xiawu Zheng, Shaohui Lin, Deqiang Jiang, Di Yin, Peng Gao, Ke Li, Xing Sun, Rongrong Ji
cs.AI

Zusammenfassung

Der zunehmende Fokus auf Multimodale Große Sprachmodelle (MLLMs), wie beispielsweise GPT-4V(ision) von OpenAI, hat einen bedeutenden Trend sowohl in der Wissenschaft als auch in der Industrie markiert. Diese Modelle statten Große Sprachmodelle (LLMs) mit leistungsstarken Fähigkeiten im Bereich des visuellen Verständnisses aus, wodurch sie in der Lage sind, diverse multimodale Aufgaben zu bewältigen. Kürzlich hat Google Gemini veröffentlicht, sein neuestes und leistungsfähigstes MLLM, das von Grund auf für Multimodalität entwickelt wurde. Angesichts der überlegenen Fähigkeiten im Bereich des logischen Denkens stellt sich die Frage, ob Gemini die führende Position von GPT-4V im Bereich des multimodalen Lernens herausfordern kann. In diesem Papier präsentieren wir eine vorläufige Untersuchung der visuellen Verständnisfähigkeiten von Gemini Pro, die vier Domänen umfassend abdeckt: grundlegende Wahrnehmung, fortgeschrittene Kognition, anspruchsvolle visuelle Aufgaben und verschiedene Expertenfähigkeiten. Wir vergleichen Gemini Pro mit dem state-of-the-art GPT-4V, um seine oberen Grenzen zu bewerten, sowie mit dem neuesten Open-Source-MLLM, Sphinx, das die Lücke zwischen manuellen Bemühungen und Black-Box-Systemen aufzeigt. Die qualitativen Beispiele zeigen, dass GPT-4V und Gemini zwar unterschiedliche Antwortstile und Präferenzen aufweisen, jedoch vergleichbare Fähigkeiten im visuellen Denken zeigen können, während Sphinx in Bezug auf die Domänengeneralisierung noch hinterherhinkt. Insbesondere neigt GPT-4V dazu, detaillierte Erklärungen und Zwischenschritte zu liefern, während Gemini bevorzugt eine direkte und prägnante Antwort gibt. Die quantitative Auswertung auf dem populären MME-Benchmark demonstriert ebenfalls das Potenzial von Gemini, ein starker Herausforderer für GPT-4V zu sein. Unsere frühe Untersuchung von Gemini zeigt auch einige allgemeine Probleme von MLLMs auf, was darauf hindeutet, dass noch ein beträchtlicher Weg bis zur künstlichen allgemeinen Intelligenz zurückzulegen ist. Unser Projekt zur Verfolgung des Fortschritts von MLLM ist unter https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models verfügbar.
English
The surge of interest towards Multi-modal Large Language Models (MLLMs), e.g., GPT-4V(ision) from OpenAI, has marked a significant trend in both academia and industry. They endow Large Language Models (LLMs) with powerful capabilities in visual understanding, enabling them to tackle diverse multi-modal tasks. Very recently, Google released Gemini, its newest and most capable MLLM built from the ground up for multi-modality. In light of the superior reasoning capabilities, can Gemini challenge GPT-4V's leading position in multi-modal learning? In this paper, we present a preliminary exploration of Gemini Pro's visual understanding proficiency, which comprehensively covers four domains: fundamental perception, advanced cognition, challenging vision tasks, and various expert capacities. We compare Gemini Pro with the state-of-the-art GPT-4V to evaluate its upper limits, along with the latest open-sourced MLLM, Sphinx, which reveals the gap between manual efforts and black-box systems. The qualitative samples indicate that, while GPT-4V and Gemini showcase different answering styles and preferences, they can exhibit comparable visual reasoning capabilities, and Sphinx still trails behind them concerning domain generalizability. Specifically, GPT-4V tends to elaborate detailed explanations and intermediate steps, and Gemini prefers to output a direct and concise answer. The quantitative evaluation on the popular MME benchmark also demonstrates the potential of Gemini to be a strong challenger to GPT-4V. Our early investigation of Gemini also observes some common issues of MLLMs, indicating that there still remains a considerable distance towards artificial general intelligence. Our project for tracking the progress of MLLM is released at https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models.
PDF153December 15, 2024