ChatPaper.aiChatPaper

MiniCPM-V: Um MLLM de Nível GPT-4V no Seu Celular

MiniCPM-V: A GPT-4V Level MLLM on Your Phone

August 3, 2024
Autores: Yuan Yao, Tianyu Yu, Ao Zhang, Chongyi Wang, Junbo Cui, Hongji Zhu, Tianchi Cai, Haoyu Li, Weilin Zhao, Zhihui He, Qianyu Chen, Huarong Zhou, Zhensheng Zou, Haoye Zhang, Shengding Hu, Zhi Zheng, Jie Zhou, Jie Cai, Xu Han, Guoyang Zeng, Dahai Li, Zhiyuan Liu, Maosong Sun
cs.AI

Resumo

O recente aumento dos Modelos de Linguagem Multimodais de Grande Escala (MLLMs) remodelou fundamentalmente o cenário da pesquisa e indústria de IA, lançando luz sobre um caminho promissor em direção ao próximo marco da IA. No entanto, desafios significativos ainda impedem que os MLLMs sejam práticos em aplicações do mundo real. O desafio mais notável surge do alto custo de executar um MLLM com um grande número de parâmetros e extensa computação. Como resultado, a maioria dos MLLMs precisa ser implantada em servidores em nuvem de alto desempenho, o que limita grandemente seus escopos de aplicação, como em cenários móveis, offline, sensíveis à energia e de proteção de privacidade. Neste trabalho, apresentamos o MiniCPM-V, uma série de MLLMs eficientes implantáveis em dispositivos de ponta. Ao integrar as técnicas mais recentes de MLLM em arquitetura, pré-treinamento e alinhamento, o mais recente MiniCPM-Llama3-V 2.5 possui várias características notáveis: (1) Alto desempenho, superando o GPT-4V-1106, Gemini Pro e Claude 3 no OpenCompass, uma avaliação abrangente em 11 benchmarks populares, (2) forte capacidade de OCR e percepção de imagem de alta resolução de 1,8M pixels em qualquer proporção, (3) comportamento confiável com baixas taxas de alucinação, (4) suporte multilíngue para mais de 30 idiomas e (5) implantação eficiente em telefones celulares. Mais importante ainda, o MiniCPM-V pode ser visto como um exemplo representativo de uma tendência promissora: os tamanhos de modelo para alcançar desempenho de nível utilizável (por exemplo, GPT-4V) estão diminuindo rapidamente, juntamente com o rápido crescimento da capacidade de computação de ponta. Isso demonstra conjuntamente que MLLMs de nível GPT-4V implantados em dispositivos de ponta estão se tornando cada vez mais possíveis, desbloqueando um espectro mais amplo de aplicações de IA do mundo real em um futuro próximo.
English
The recent surge of Multimodal Large Language Models (MLLMs) has fundamentally reshaped the landscape of AI research and industry, shedding light on a promising path toward the next AI milestone. However, significant challenges remain preventing MLLMs from being practical in real-world applications. The most notable challenge comes from the huge cost of running an MLLM with a massive number of parameters and extensive computation. As a result, most MLLMs need to be deployed on high-performing cloud servers, which greatly limits their application scopes such as mobile, offline, energy-sensitive, and privacy-protective scenarios. In this work, we present MiniCPM-V, a series of efficient MLLMs deployable on end-side devices. By integrating the latest MLLM techniques in architecture, pretraining and alignment, the latest MiniCPM-Llama3-V 2.5 has several notable features: (1) Strong performance, outperforming GPT-4V-1106, Gemini Pro and Claude 3 on OpenCompass, a comprehensive evaluation over 11 popular benchmarks, (2) strong OCR capability and 1.8M pixel high-resolution image perception at any aspect ratio, (3) trustworthy behavior with low hallucination rates, (4) multilingual support for 30+ languages, and (5) efficient deployment on mobile phones. More importantly, MiniCPM-V can be viewed as a representative example of a promising trend: The model sizes for achieving usable (e.g., GPT-4V) level performance are rapidly decreasing, along with the fast growth of end-side computation capacity. This jointly shows that GPT-4V level MLLMs deployed on end devices are becoming increasingly possible, unlocking a wider spectrum of real-world AI applications in the near future.

Summary

AI-Generated Summary

PDF836November 28, 2024