Un concorrente per GPT-4V? Prime esplorazioni di Gemini nell'esperienza visiva

Abstract

Il crescente interesse verso i Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM), come GPT-4V(ision) di OpenAI, ha segnato una tendenza significativa sia in ambito accademico che industriale. Questi modelli dotano i Modelli Linguistici di Grandi Dimensioni (LLM) di potenti capacità di comprensione visiva, consentendo loro di affrontare una vasta gamma di compiti multimodali. Recentemente, Google ha rilasciato Gemini, il suo MLLM più recente e avanzato, progettato da zero per la multimodalità. Alla luce delle superiori capacità di ragionamento, Gemini può sfidare la posizione di leadership di GPT-4V nell'apprendimento multimodale? In questo articolo, presentiamo un'esplorazione preliminare della competenza di comprensione visiva di Gemini Pro, che copre in modo esaustivo quattro domini: percezione di base, cognizione avanzata, compiti visivi complessi e varie capacità specialistiche. Confrontiamo Gemini Pro con lo stato dell'arte GPT-4V per valutarne i limiti superiori, insieme al più recente MLLM open-source, Sphinx, che rivela il divario tra gli sforzi manuali e i sistemi a scatola chiusa. I campioni qualitativi indicano che, sebbene GPT-4V e Gemini mostrino stili e preferenze di risposta diversi, possono esibire capacità di ragionamento visivo comparabili, mentre Sphinx rimane ancora indietro rispetto a loro per quanto riguarda la generalizzabilità di dominio. In particolare, GPT-4V tende a elaborare spiegazioni dettagliate e passaggi intermedi, mentre Gemini preferisce fornire una risposta diretta e concisa. La valutazione quantitativa sul popolare benchmark MME dimostra anche il potenziale di Gemini di essere un forte sfidante per GPT-4V. La nostra indagine preliminare su Gemini osserva anche alcuni problemi comuni degli MLLM, indicando che rimane ancora una distanza considerevole verso l'intelligenza artificiale generale. Il nostro progetto per monitorare i progressi degli MLLM è disponibile all'indirizzo https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models.

English

The surge of interest towards Multi-modal Large Language Models (MLLMs), e.g., GPT-4V(ision) from OpenAI, has marked a significant trend in both academia and industry. They endow Large Language Models (LLMs) with powerful capabilities in visual understanding, enabling them to tackle diverse multi-modal tasks. Very recently, Google released Gemini, its newest and most capable MLLM built from the ground up for multi-modality. In light of the superior reasoning capabilities, can Gemini challenge GPT-4V's leading position in multi-modal learning? In this paper, we present a preliminary exploration of Gemini Pro's visual understanding proficiency, which comprehensively covers four domains: fundamental perception, advanced cognition, challenging vision tasks, and various expert capacities. We compare Gemini Pro with the state-of-the-art GPT-4V to evaluate its upper limits, along with the latest open-sourced MLLM, Sphinx, which reveals the gap between manual efforts and black-box systems. The qualitative samples indicate that, while GPT-4V and Gemini showcase different answering styles and preferences, they can exhibit comparable visual reasoning capabilities, and Sphinx still trails behind them concerning domain generalizability. Specifically, GPT-4V tends to elaborate detailed explanations and intermediate steps, and Gemini prefers to output a direct and concise answer. The quantitative evaluation on the popular MME benchmark also demonstrates the potential of Gemini to be a strong challenger to GPT-4V. Our early investigation of Gemini also observes some common issues of MLLMs, indicating that there still remains a considerable distance towards artificial general intelligence. Our project for tracking the progress of MLLM is released at https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models.

Un concorrente per GPT-4V? Prime esplorazioni di Gemini nell'esperienza visiva

A Challenger to GPT-4V? Early Explorations of Gemini in Visual Expertise

Abstract

Support