ChatPaper.aiChatPaper

MiniCPM-V: MLLM уровня GPT-4V на вашем телефоне

MiniCPM-V: A GPT-4V Level MLLM on Your Phone

August 3, 2024
Авторы: Yuan Yao, Tianyu Yu, Ao Zhang, Chongyi Wang, Junbo Cui, Hongji Zhu, Tianchi Cai, Haoyu Li, Weilin Zhao, Zhihui He, Qianyu Chen, Huarong Zhou, Zhensheng Zou, Haoye Zhang, Shengding Hu, Zhi Zheng, Jie Zhou, Jie Cai, Xu Han, Guoyang Zeng, Dahai Li, Zhiyuan Liu, Maosong Sun
cs.AI

Аннотация

Недавний всплеск Мультимодальных Больших Языковых Моделей (MLLMs) фундаментально изменил пейзаж исследований и индустрии искусственного интеллекта, пролив свет на многообещающий путь к следующему веховому моменту в области ИИ. Однако значительные препятствия по-прежнему мешают MLLMs стать практичными в реальных приложениях. Самое заметное препятствие возникает из-за огромных затрат на запуск MLLM с огромным количеством параметров и обширных вычислений. В результате большинство MLLMs должны быть развернуты на высокопроизводительных облачных серверах, что значительно ограничивает их области применения, такие как мобильные, автономные, энергоэффективные и защищенные конфиденциальностью сценарии. В данной работе мы представляем MiniCPM-V, серию эффективных MLLMs, которые могут быть развернуты на устройствах на стороне конечного пользователя. Интегрируя последние техники MLLM в архитектуру, предварительное обучение и выравнивание, последняя версия MiniCPM-Llama3-V 2.5 имеет несколько заметных особенностей: (1) Высокая производительность, превосходящая GPT-4V-1106, Gemini Pro и Claude 3 на OpenCompass, обширной оценке по 11 популярным бенчмаркам, (2) высокая способность к распознаванию текста и восприятие изображений с разрешением 1,8 миллиона пикселей при любом соотношении сторон, (3) надежное поведение с низкими показателями галлюцинаций, (4) многоязычная поддержка для 30+ языков и (5) эффективное развертывание на мобильных телефонах. Что более важно, MiniCPM-V можно рассматривать как репрезентативный пример многообещающего тренда: размеры моделей для достижения приемлемой (например, GPT-4V) производительности быстро уменьшаются на фоне быстрого роста вычислительной мощности на стороне конечного пользователя. Это совместно показывает, что MLLMs уровня GPT-4V, развернутые на конечных устройствах, становятся все более возможными, открывая более широкий спектр реальных приложений искусственного интеллекта в ближайшем будущем.
English
The recent surge of Multimodal Large Language Models (MLLMs) has fundamentally reshaped the landscape of AI research and industry, shedding light on a promising path toward the next AI milestone. However, significant challenges remain preventing MLLMs from being practical in real-world applications. The most notable challenge comes from the huge cost of running an MLLM with a massive number of parameters and extensive computation. As a result, most MLLMs need to be deployed on high-performing cloud servers, which greatly limits their application scopes such as mobile, offline, energy-sensitive, and privacy-protective scenarios. In this work, we present MiniCPM-V, a series of efficient MLLMs deployable on end-side devices. By integrating the latest MLLM techniques in architecture, pretraining and alignment, the latest MiniCPM-Llama3-V 2.5 has several notable features: (1) Strong performance, outperforming GPT-4V-1106, Gemini Pro and Claude 3 on OpenCompass, a comprehensive evaluation over 11 popular benchmarks, (2) strong OCR capability and 1.8M pixel high-resolution image perception at any aspect ratio, (3) trustworthy behavior with low hallucination rates, (4) multilingual support for 30+ languages, and (5) efficient deployment on mobile phones. More importantly, MiniCPM-V can be viewed as a representative example of a promising trend: The model sizes for achieving usable (e.g., GPT-4V) level performance are rapidly decreasing, along with the fast growth of end-side computation capacity. This jointly shows that GPT-4V level MLLMs deployed on end devices are becoming increasingly possible, unlocking a wider spectrum of real-world AI applications in the near future.

Summary

AI-Generated Summary

PDF836November 28, 2024