ChatPaper.aiChatPaper

MiniCPM-V: Een GPT-4V-niveau MLLM op jouw telefoon

MiniCPM-V: A GPT-4V Level MLLM on Your Phone

August 3, 2024
Auteurs: Yuan Yao, Tianyu Yu, Ao Zhang, Chongyi Wang, Junbo Cui, Hongji Zhu, Tianchi Cai, Haoyu Li, Weilin Zhao, Zhihui He, Qianyu Chen, Huarong Zhou, Zhensheng Zou, Haoye Zhang, Shengding Hu, Zhi Zheng, Jie Zhou, Jie Cai, Xu Han, Guoyang Zeng, Dahai Li, Zhiyuan Liu, Maosong Sun
cs.AI

Samenvatting

De recente opkomst van Multimodale Grote Taalmodellen (MLLMs) heeft het landschap van AI-onderzoek en -industrie fundamenteel hervormd en een veelbelovend pad naar de volgende AI-mijlpaal belicht. Er blijven echter aanzienlijke uitdagingen bestaan die verhinderen dat MLLMs praktisch toepasbaar zijn in de echte wereld. De meest opvallende uitdaging komt voort uit de enorme kosten van het draaien van een MLLM met een massief aantal parameters en uitgebreide berekeningen. Als gevolg hiervan moeten de meeste MLLMs worden geïmplementeerd op hoogpresterende cloudservers, wat hun toepassingsmogelijkheden zoals mobiel, offline, energiegevoelige en privacybeschermende scenario's sterk beperkt. In dit werk presenteren we MiniCPM-V, een reeks efficiënte MLLMs die op eindapparaten kunnen worden geïmplementeerd. Door de nieuwste MLLM-technieken in architectuur, voorafgaande training en afstemming te integreren, heeft de nieuwste MiniCPM-Llama3-V 2.5 verschillende opmerkelijke kenmerken: (1) Sterke prestaties, die GPT-4V-1106, Gemini Pro en Claude 3 overtreffen op OpenCompass, een uitgebreide evaluatie over 11 populaire benchmarks, (2) sterke OCR-capaciteit en 1,8M pixel hoge-resolutie beeldperceptie bij elke beeldverhouding, (3) betrouwbaar gedrag met lage hallucinatiepercentages, (4) meertalige ondersteuning voor 30+ talen, en (5) efficiënte implementatie op mobiele telefoons. Belangrijker nog, MiniCPM-V kan worden gezien als een representatief voorbeeld van een veelbelovende trend: De modelgroottes die nodig zijn om bruikbaar (bijv. GPT-4V) niveau prestaties te bereiken, nemen snel af, samen met de snelle groei van de rekenkracht aan de eindkant. Dit toont gezamenlijk aan dat GPT-4V niveau MLLMs die op eindapparaten worden geïmplementeerd steeds meer mogelijk worden, wat in de nabije toekomst een breder spectrum van real-world AI-toepassingen ontsluit.
English
The recent surge of Multimodal Large Language Models (MLLMs) has fundamentally reshaped the landscape of AI research and industry, shedding light on a promising path toward the next AI milestone. However, significant challenges remain preventing MLLMs from being practical in real-world applications. The most notable challenge comes from the huge cost of running an MLLM with a massive number of parameters and extensive computation. As a result, most MLLMs need to be deployed on high-performing cloud servers, which greatly limits their application scopes such as mobile, offline, energy-sensitive, and privacy-protective scenarios. In this work, we present MiniCPM-V, a series of efficient MLLMs deployable on end-side devices. By integrating the latest MLLM techniques in architecture, pretraining and alignment, the latest MiniCPM-Llama3-V 2.5 has several notable features: (1) Strong performance, outperforming GPT-4V-1106, Gemini Pro and Claude 3 on OpenCompass, a comprehensive evaluation over 11 popular benchmarks, (2) strong OCR capability and 1.8M pixel high-resolution image perception at any aspect ratio, (3) trustworthy behavior with low hallucination rates, (4) multilingual support for 30+ languages, and (5) efficient deployment on mobile phones. More importantly, MiniCPM-V can be viewed as a representative example of a promising trend: The model sizes for achieving usable (e.g., GPT-4V) level performance are rapidly decreasing, along with the fast growth of end-side computation capacity. This jointly shows that GPT-4V level MLLMs deployed on end devices are becoming increasingly possible, unlocking a wider spectrum of real-world AI applications in the near future.
PDF897November 28, 2024