MiniCPM-V : Un modèle de langage multimodal de niveau GPT-4V sur votre téléphoneMiniCPM-V: A GPT-4V Level MLLM on Your Phone
La récente montée en puissance des Modèles de Langage Multimodaux de Grande Taille (MLLMs) a fondamentalement redéfini le paysage de la recherche et de l'industrie en IA, ouvrant une voie prometteuse vers le prochain jalon de l'intelligence artificielle. Cependant, des défis majeurs persistent, empêchant les MLLMs d'être pratiques dans des applications réelles. Le défi le plus notable réside dans le coût élevé d'exécution d'un MLLM avec un nombre massif de paramètres et des calculs extensifs. En conséquence, la plupart des MLLMs doivent être déployés sur des serveurs cloud hautes performances, ce qui limite grandement leurs domaines d'application, tels que les scénarios mobiles, hors ligne, sensibles à l'énergie et protecteurs de la vie privée. Dans ce travail, nous présentons MiniCPM-V, une série de MLLMs efficaces déployables sur des appareils terminaux. En intégrant les dernières techniques de MLLM en matière d'architecture, de pré-entraînement et d'alignement, le dernier MiniCPM-Llama3-V 2.5 présente plusieurs caractéristiques notables : (1) Des performances solides, surpassant GPT-4V-1106, Gemini Pro et Claude 3 sur OpenCompass, une évaluation complète sur 11 benchmarks populaires, (2) une forte capacité OCR et une perception d'images haute résolution de 1,8M pixels à n'importe quel ratio d'aspect, (3) un comportement fiable avec des taux d'hallucination faibles, (4) un support multilingue pour plus de 30 langues, et (5) un déploiement efficace sur les téléphones mobiles. Plus important encore, MiniCPM-V peut être considéré comme un exemple représentatif d'une tendance prometteuse : les tailles de modèles nécessaires pour atteindre des performances utilisables (par exemple, GPT-4V) diminuent rapidement, parallèlement à la croissance rapide de la capacité de calcul côté terminal. Cela montre conjointement que les MLLMs de niveau GPT-4V déployés sur des appareils terminaux deviennent de plus en plus possibles, débloquant un spectre plus large d'applications réelles de l'IA dans un avenir proche.