ChatPaper.aiChatPaper

MiniCPM-V : Un modèle de langage multimodal de niveau GPT-4V sur votre téléphone

MiniCPM-V: A GPT-4V Level MLLM on Your Phone

August 3, 2024
Auteurs: Yuan Yao, Tianyu Yu, Ao Zhang, Chongyi Wang, Junbo Cui, Hongji Zhu, Tianchi Cai, Haoyu Li, Weilin Zhao, Zhihui He, Qianyu Chen, Huarong Zhou, Zhensheng Zou, Haoye Zhang, Shengding Hu, Zhi Zheng, Jie Zhou, Jie Cai, Xu Han, Guoyang Zeng, Dahai Li, Zhiyuan Liu, Maosong Sun
cs.AI

Résumé

La récente montée en puissance des Modèles de Langage Multimodaux de Grande Taille (MLLMs) a fondamentalement redéfini le paysage de la recherche et de l'industrie en IA, ouvrant une voie prometteuse vers le prochain jalon de l'intelligence artificielle. Cependant, des défis majeurs persistent, empêchant les MLLMs d'être pratiques dans des applications réelles. Le défi le plus notable réside dans le coût élevé d'exécution d'un MLLM avec un nombre massif de paramètres et des calculs extensifs. En conséquence, la plupart des MLLMs doivent être déployés sur des serveurs cloud hautes performances, ce qui limite grandement leurs domaines d'application, tels que les scénarios mobiles, hors ligne, sensibles à l'énergie et protecteurs de la vie privée. Dans ce travail, nous présentons MiniCPM-V, une série de MLLMs efficaces déployables sur des appareils terminaux. En intégrant les dernières techniques de MLLM en matière d'architecture, de pré-entraînement et d'alignement, le dernier MiniCPM-Llama3-V 2.5 présente plusieurs caractéristiques notables : (1) Des performances solides, surpassant GPT-4V-1106, Gemini Pro et Claude 3 sur OpenCompass, une évaluation complète sur 11 benchmarks populaires, (2) une forte capacité OCR et une perception d'images haute résolution de 1,8M pixels à n'importe quel ratio d'aspect, (3) un comportement fiable avec des taux d'hallucination faibles, (4) un support multilingue pour plus de 30 langues, et (5) un déploiement efficace sur les téléphones mobiles. Plus important encore, MiniCPM-V peut être considéré comme un exemple représentatif d'une tendance prometteuse : les tailles de modèles nécessaires pour atteindre des performances utilisables (par exemple, GPT-4V) diminuent rapidement, parallèlement à la croissance rapide de la capacité de calcul côté terminal. Cela montre conjointement que les MLLMs de niveau GPT-4V déployés sur des appareils terminaux deviennent de plus en plus possibles, débloquant un spectre plus large d'applications réelles de l'IA dans un avenir proche.
English
The recent surge of Multimodal Large Language Models (MLLMs) has fundamentally reshaped the landscape of AI research and industry, shedding light on a promising path toward the next AI milestone. However, significant challenges remain preventing MLLMs from being practical in real-world applications. The most notable challenge comes from the huge cost of running an MLLM with a massive number of parameters and extensive computation. As a result, most MLLMs need to be deployed on high-performing cloud servers, which greatly limits their application scopes such as mobile, offline, energy-sensitive, and privacy-protective scenarios. In this work, we present MiniCPM-V, a series of efficient MLLMs deployable on end-side devices. By integrating the latest MLLM techniques in architecture, pretraining and alignment, the latest MiniCPM-Llama3-V 2.5 has several notable features: (1) Strong performance, outperforming GPT-4V-1106, Gemini Pro and Claude 3 on OpenCompass, a comprehensive evaluation over 11 popular benchmarks, (2) strong OCR capability and 1.8M pixel high-resolution image perception at any aspect ratio, (3) trustworthy behavior with low hallucination rates, (4) multilingual support for 30+ languages, and (5) efficient deployment on mobile phones. More importantly, MiniCPM-V can be viewed as a representative example of a promising trend: The model sizes for achieving usable (e.g., GPT-4V) level performance are rapidly decreasing, along with the fast growth of end-side computation capacity. This jointly shows that GPT-4V level MLLMs deployed on end devices are becoming increasingly possible, unlocking a wider spectrum of real-world AI applications in the near future.

Summary

AI-Generated Summary

PDF836November 28, 2024