Um Desafiador para o GPT-4V? Explorações Iniciais do Gemini em Expertise Visual
A Challenger to GPT-4V? Early Explorations of Gemini in Visual Expertise
December 19, 2023
Autores: Chaoyou Fu, Renrui Zhang, Haojia Lin, Zihan Wang, Timin Gao, Yongdong Luo, Yubo Huang, Zhengye Zhang, Longtian Qiu, Gaoxiang Ye, Yunhang Shen, Mengdan Zhang, Peixian Chen, Sirui Zhao, Xiawu Zheng, Shaohui Lin, Deqiang Jiang, Di Yin, Peng Gao, Ke Li, Xing Sun, Rongrong Ji
cs.AI
Resumo
O crescente interesse pelos Modelos de Linguagem Multimodais de Grande Escala (MLLMs), como o GPT-4V(ision) da OpenAI, tem marcado uma tendência significativa tanto na academia quanto na indústria. Esses modelos dotam os Modelos de Linguagem de Grande Escala (LLMs) com capacidades poderosas de compreensão visual, permitindo que eles lidem com diversas tarefas multimodais. Recentemente, a Google lançou o Gemini, seu mais novo e mais capaz MLLM, construído desde o início para a multimodalidade. Diante das superiores capacidades de raciocínio, o Gemini pode desafiar a posição de liderança do GPT-4V no aprendizado multimodal? Neste artigo, apresentamos uma exploração preliminar da proficiência de compreensão visual do Gemini Pro, que abrange de forma abrangente quatro domínios: percepção fundamental, cognição avançada, tarefas visuais desafiadoras e várias capacidades especializadas. Comparamos o Gemini Pro com o estado da arte GPT-4V para avaliar seus limites superiores, juntamente com o mais recente MLLM de código aberto, Sphinx, que revela a lacuna entre os esforços manuais e os sistemas de caixa preta. As amostras qualitativas indicam que, embora o GPT-4V e o Gemini apresentem estilos e preferências de resposta diferentes, eles podem exibir capacidades comparáveis de raciocínio visual, e o Sphinx ainda fica atrás deles em termos de generalização de domínio. Especificamente, o GPT-4V tende a elaborar explicações detalhadas e etapas intermediárias, enquanto o Gemini prefere fornecer uma resposta direta e concisa. A avaliação quantitativa no popular benchmark MME também demonstra o potencial do Gemini para ser um forte concorrente ao GPT-4V. Nossa investigação inicial do Gemini também observa alguns problemas comuns dos MLLMs, indicando que ainda há uma distância considerável até a inteligência artificial geral. Nosso projeto para acompanhar o progresso dos MLLMs está disponível em https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models.
English
The surge of interest towards Multi-modal Large Language Models (MLLMs),
e.g., GPT-4V(ision) from OpenAI, has marked a significant trend in both
academia and industry. They endow Large Language Models (LLMs) with powerful
capabilities in visual understanding, enabling them to tackle diverse
multi-modal tasks. Very recently, Google released Gemini, its newest and most
capable MLLM built from the ground up for multi-modality. In light of the
superior reasoning capabilities, can Gemini challenge GPT-4V's leading position
in multi-modal learning? In this paper, we present a preliminary exploration of
Gemini Pro's visual understanding proficiency, which comprehensively covers
four domains: fundamental perception, advanced cognition, challenging vision
tasks, and various expert capacities. We compare Gemini Pro with the
state-of-the-art GPT-4V to evaluate its upper limits, along with the latest
open-sourced MLLM, Sphinx, which reveals the gap between manual efforts and
black-box systems. The qualitative samples indicate that, while GPT-4V and
Gemini showcase different answering styles and preferences, they can exhibit
comparable visual reasoning capabilities, and Sphinx still trails behind them
concerning domain generalizability. Specifically, GPT-4V tends to elaborate
detailed explanations and intermediate steps, and Gemini prefers to output a
direct and concise answer. The quantitative evaluation on the popular MME
benchmark also demonstrates the potential of Gemini to be a strong challenger
to GPT-4V. Our early investigation of Gemini also observes some common issues
of MLLMs, indicating that there still remains a considerable distance towards
artificial general intelligence. Our project for tracking the progress of MLLM
is released at
https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models.