Претендент на звание GPT-4V? Первые исследования возможностей Gemini в области визуальной экспертизы
A Challenger to GPT-4V? Early Explorations of Gemini in Visual Expertise
December 19, 2023
Авторы: Chaoyou Fu, Renrui Zhang, Haojia Lin, Zihan Wang, Timin Gao, Yongdong Luo, Yubo Huang, Zhengye Zhang, Longtian Qiu, Gaoxiang Ye, Yunhang Shen, Mengdan Zhang, Peixian Chen, Sirui Zhao, Xiawu Zheng, Shaohui Lin, Deqiang Jiang, Di Yin, Peng Gao, Ke Li, Xing Sun, Rongrong Ji
cs.AI
Аннотация
Рост интереса к мультимодальным большим языковым моделям (MLLM), таким как GPT-4V(ision) от OpenAI, стал заметным трендом как в академических кругах, так и в индустрии. Эти модели наделяют большие языковые модели (LLM) мощными возможностями в области визуального понимания, позволяя им решать разнообразные мультимодальные задачи. Совсем недавно Google представил Gemini — свою новейшую и наиболее продвинутую MLLM, разработанную с нуля для работы с мультимодальностью. Учитывая превосходные способности к рассуждению, может ли Gemini бросить вызов лидирующей позиции GPT-4V в области мультимодального обучения? В данной статье мы представляем предварительное исследование способностей Gemini Pro к визуальному пониманию, охватывающее четыре области: базовое восприятие, продвинутое познание, сложные задачи компьютерного зрения и различные экспертные навыки. Мы сравниваем Gemini Pro с передовой моделью GPT-4V, чтобы оценить её предельные возможности, а также с последней открытой MLLM, Sphinx, что позволяет выявить разрыв между ручными усилиями и закрытыми системами. Качественные примеры показывают, что, хотя GPT-4V и Gemini демонстрируют разные стили и предпочтения в ответах, они могут проявлять сопоставимые способности к визуальному рассуждению, в то время как Sphinx всё ещё отстаёт от них в плане обобщаемости на различные области. В частности, GPT-4V склонен давать подробные объяснения и промежуточные шаги, тогда как Gemini предпочитает выдавать прямой и лаконичный ответ. Количественная оценка на популярном бенчмарке MME также демонстрирует потенциал Gemini как серьёзного конкурента GPT-4V. Наше раннее исследование Gemini также выявило некоторые общие проблемы MLLM, указывающие на то, что до достижения искусственного общего интеллекта ещё остаётся значительное расстояние. Наш проект для отслеживания прогресса MLLM доступен по адресу: https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models.
English
The surge of interest towards Multi-modal Large Language Models (MLLMs),
e.g., GPT-4V(ision) from OpenAI, has marked a significant trend in both
academia and industry. They endow Large Language Models (LLMs) with powerful
capabilities in visual understanding, enabling them to tackle diverse
multi-modal tasks. Very recently, Google released Gemini, its newest and most
capable MLLM built from the ground up for multi-modality. In light of the
superior reasoning capabilities, can Gemini challenge GPT-4V's leading position
in multi-modal learning? In this paper, we present a preliminary exploration of
Gemini Pro's visual understanding proficiency, which comprehensively covers
four domains: fundamental perception, advanced cognition, challenging vision
tasks, and various expert capacities. We compare Gemini Pro with the
state-of-the-art GPT-4V to evaluate its upper limits, along with the latest
open-sourced MLLM, Sphinx, which reveals the gap between manual efforts and
black-box systems. The qualitative samples indicate that, while GPT-4V and
Gemini showcase different answering styles and preferences, they can exhibit
comparable visual reasoning capabilities, and Sphinx still trails behind them
concerning domain generalizability. Specifically, GPT-4V tends to elaborate
detailed explanations and intermediate steps, and Gemini prefers to output a
direct and concise answer. The quantitative evaluation on the popular MME
benchmark also demonstrates the potential of Gemini to be a strong challenger
to GPT-4V. Our early investigation of Gemini also observes some common issues
of MLLMs, indicating that there still remains a considerable distance towards
artificial general intelligence. Our project for tracking the progress of MLLM
is released at
https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models.