ChatPaper.aiChatPaper

MiniCPM-V: Ein MLLM auf GPT-4V-Niveau auf Ihrem Telefon

MiniCPM-V: A GPT-4V Level MLLM on Your Phone

August 3, 2024
Autoren: Yuan Yao, Tianyu Yu, Ao Zhang, Chongyi Wang, Junbo Cui, Hongji Zhu, Tianchi Cai, Haoyu Li, Weilin Zhao, Zhihui He, Qianyu Chen, Huarong Zhou, Zhensheng Zou, Haoye Zhang, Shengding Hu, Zhi Zheng, Jie Zhou, Jie Cai, Xu Han, Guoyang Zeng, Dahai Li, Zhiyuan Liu, Maosong Sun
cs.AI

Zusammenfassung

Die jüngste Welle von Multimodalen Großen Sprachmodellen (MLLMs) hat das Forschungs- und Industrielandschaft der KI grundlegend verändert und einen vielversprechenden Weg zum nächsten KI-Meilenstein aufgezeigt. Es gibt jedoch weiterhin bedeutende Herausforderungen, die verhindern, dass MLLMs in der Praxis in realen Anwendungen eingesetzt werden können. Die herausragendste Herausforderung ergibt sich aus den enormen Kosten für den Betrieb eines MLLMs mit einer riesigen Anzahl von Parametern und umfangreichen Berechnungen. Als Ergebnis müssen die meisten MLLMs auf leistungsstarken Cloud-Servern bereitgestellt werden, was ihre Anwendungsbereiche wie mobile, offline, energieempfindliche und datenschutzsensible Szenarien erheblich einschränkt. In dieser Arbeit präsentieren wir MiniCPM-V, eine Serie effizienter MLLMs, die auf Endgeräten einsetzbar sind. Durch die Integration der neuesten MLLM-Techniken in Architektur, Vortraining und Ausrichtung weist das neueste MiniCPM-Llama3-V 2.5 mehrere bemerkenswerte Merkmale auf: (1) Starke Leistung, die GPT-4V-1106, Gemini Pro und Claude 3 in OpenCompass, einer umfassenden Bewertung über 11 beliebte Benchmarks, übertrifft, (2) starke OCR-Fähigkeiten und eine 1,8 Millionen Pixel hochauflösende Bildwahrnehmung bei beliebigem Seitenverhältnis, (3) vertrauenswürdiges Verhalten mit niedrigen Halluzinationsraten, (4) mehrsprachige Unterstützung für über 30 Sprachen und (5) effiziente Bereitstellung auf Mobiltelefonen. Noch wichtiger ist, dass MiniCPM-V als repräsentatives Beispiel für einen vielversprechenden Trend angesehen werden kann: Die Modellgrößen, um eine nutzbare (z. B. GPT-4V) Leistung zu erzielen, nehmen rapide ab, zusammen mit dem schnellen Wachstum der Endgeräte-Berechnungskapazität. Dies zeigt gemeinsam, dass MLLMs auf GPT-4V-Niveau, die auf Endgeräten bereitgestellt werden, zunehmend möglich werden und in naher Zukunft ein breiteres Spektrum an KI-Anwendungen in der realen Welt erschließen.
English
The recent surge of Multimodal Large Language Models (MLLMs) has fundamentally reshaped the landscape of AI research and industry, shedding light on a promising path toward the next AI milestone. However, significant challenges remain preventing MLLMs from being practical in real-world applications. The most notable challenge comes from the huge cost of running an MLLM with a massive number of parameters and extensive computation. As a result, most MLLMs need to be deployed on high-performing cloud servers, which greatly limits their application scopes such as mobile, offline, energy-sensitive, and privacy-protective scenarios. In this work, we present MiniCPM-V, a series of efficient MLLMs deployable on end-side devices. By integrating the latest MLLM techniques in architecture, pretraining and alignment, the latest MiniCPM-Llama3-V 2.5 has several notable features: (1) Strong performance, outperforming GPT-4V-1106, Gemini Pro and Claude 3 on OpenCompass, a comprehensive evaluation over 11 popular benchmarks, (2) strong OCR capability and 1.8M pixel high-resolution image perception at any aspect ratio, (3) trustworthy behavior with low hallucination rates, (4) multilingual support for 30+ languages, and (5) efficient deployment on mobile phones. More importantly, MiniCPM-V can be viewed as a representative example of a promising trend: The model sizes for achieving usable (e.g., GPT-4V) level performance are rapidly decreasing, along with the fast growth of end-side computation capacity. This jointly shows that GPT-4V level MLLMs deployed on end devices are becoming increasingly possible, unlocking a wider spectrum of real-world AI applications in the near future.

Summary

AI-Generated Summary

PDF836November 28, 2024