MiniCPM-V: Un MLLM di livello GPT-4V sul tuo telefono
MiniCPM-V: A GPT-4V Level MLLM on Your Phone
August 3, 2024
Autori: Yuan Yao, Tianyu Yu, Ao Zhang, Chongyi Wang, Junbo Cui, Hongji Zhu, Tianchi Cai, Haoyu Li, Weilin Zhao, Zhihui He, Qianyu Chen, Huarong Zhou, Zhensheng Zou, Haoye Zhang, Shengding Hu, Zhi Zheng, Jie Zhou, Jie Cai, Xu Han, Guoyang Zeng, Dahai Li, Zhiyuan Liu, Maosong Sun
cs.AI
Abstract
La recente impennata dei Modelli Linguistici Multimodali di Grande Scala (MLLM) ha radicalmente ridefinito il panorama della ricerca e dell'industria dell'IA, illuminando una strada promettente verso il prossimo traguardo dell'intelligenza artificiale. Tuttavia, rimangono sfide significative che impediscono agli MLLM di essere pratici nelle applicazioni del mondo reale. La sfida più evidente deriva dall'enorme costo di esecuzione di un MLLM con un numero massiccio di parametri e un'estesa capacità di calcolo. Di conseguenza, la maggior parte degli MLLM deve essere distribuita su server cloud ad alte prestazioni, il che limita notevolmente il loro ambito di applicazione, come scenari mobili, offline, sensibili all'energia e protettivi della privacy. In questo lavoro, presentiamo MiniCPM-V, una serie di MLLM efficienti distribuibili su dispositivi lato utente. Integrando le ultime tecniche MLLM in architettura, pre-addestramento e allineamento, l'ultima versione MiniCPM-Llama3-V 2.5 presenta diverse caratteristiche degne di nota: (1) Prestazioni elevate, superando GPT-4V-1106, Gemini Pro e Claude 3 su OpenCompass, una valutazione completa su 11 benchmark popolari, (2) forte capacità OCR e percezione di immagini ad alta risoluzione da 1,8 milioni di pixel con qualsiasi rapporto d'aspetto, (3) comportamento affidabile con bassi tassi di allucinazione, (4) supporto multilingue per oltre 30 lingue e (5) distribuzione efficiente su telefoni cellulari. Ancora più importante, MiniCPM-V può essere visto come un esempio rappresentativo di una tendenza promettente: le dimensioni dei modelli necessarie per raggiungere prestazioni utilizzabili (ad esempio, GPT-4V) stanno diminuendo rapidamente, insieme alla rapida crescita della capacità di calcolo lato utente. Ciò dimostra congiuntamente che gli MLLM di livello GPT-4V distribuiti su dispositivi finali stanno diventando sempre più possibili, aprendo la strada a un più ampio spettro di applicazioni IA nel mondo reale nel prossimo futuro.
English
The recent surge of Multimodal Large Language Models (MLLMs) has
fundamentally reshaped the landscape of AI research and industry, shedding
light on a promising path toward the next AI milestone. However, significant
challenges remain preventing MLLMs from being practical in real-world
applications. The most notable challenge comes from the huge cost of running an
MLLM with a massive number of parameters and extensive computation. As a
result, most MLLMs need to be deployed on high-performing cloud servers, which
greatly limits their application scopes such as mobile, offline,
energy-sensitive, and privacy-protective scenarios. In this work, we present
MiniCPM-V, a series of efficient MLLMs deployable on end-side devices. By
integrating the latest MLLM techniques in architecture, pretraining and
alignment, the latest MiniCPM-Llama3-V 2.5 has several notable features: (1)
Strong performance, outperforming GPT-4V-1106, Gemini Pro and Claude 3 on
OpenCompass, a comprehensive evaluation over 11 popular benchmarks, (2) strong
OCR capability and 1.8M pixel high-resolution image perception at any aspect
ratio, (3) trustworthy behavior with low hallucination rates, (4) multilingual
support for 30+ languages, and (5) efficient deployment on mobile phones. More
importantly, MiniCPM-V can be viewed as a representative example of a promising
trend: The model sizes for achieving usable (e.g., GPT-4V) level performance
are rapidly decreasing, along with the fast growth of end-side computation
capacity. This jointly shows that GPT-4V level MLLMs deployed on end devices
are becoming increasingly possible, unlocking a wider spectrum of real-world AI
applications in the near future.