MiniCPM-V: Un MLLM de Nivel GPT-4V en tu Teléfono
MiniCPM-V: A GPT-4V Level MLLM on Your Phone
August 3, 2024
Autores: Yuan Yao, Tianyu Yu, Ao Zhang, Chongyi Wang, Junbo Cui, Hongji Zhu, Tianchi Cai, Haoyu Li, Weilin Zhao, Zhihui He, Qianyu Chen, Huarong Zhou, Zhensheng Zou, Haoye Zhang, Shengding Hu, Zhi Zheng, Jie Zhou, Jie Cai, Xu Han, Guoyang Zeng, Dahai Li, Zhiyuan Liu, Maosong Sun
cs.AI
Resumen
La reciente oleada de Modelos de Lenguaje Multimodales de Gran Tamaño (MLLMs, por sus siglas en inglés) ha transformado fundamentalmente el panorama de la investigación y la industria de la IA, arrojando luz sobre un camino prometedor hacia el próximo hito de la IA. Sin embargo, persisten desafíos significativos que impiden que los MLLMs sean prácticos en aplicaciones del mundo real. El desafío más notable proviene del enorme costo de ejecutar un MLLM con un gran número de parámetros y una extensa computación. Como resultado, la mayoría de los MLLMs necesitan ser desplegados en servidores en la nube de alto rendimiento, lo que limita en gran medida sus ámbitos de aplicación, como en escenarios móviles, sin conexión, sensibles a la energía y protectores de la privacidad. En este trabajo, presentamos MiniCPM-V, una serie de MLLMs eficientes desplegables en dispositivos de extremo. Al integrar las últimas técnicas de MLLM en arquitectura, preentrenamiento y alineación, el último MiniCPM-Llama3-V 2.5 tiene varias características notables: (1) Alto rendimiento, superando a GPT-4V-1106, Gemini Pro y Claude 3 en OpenCompass, una evaluación exhaustiva sobre 11 benchmarks populares, (2) sólida capacidad de OCR y percepción de imágenes de alta resolución de 1.8M píxeles en cualquier relación de aspecto, (3) comportamiento confiable con bajos índices de alucinación, (4) soporte multilingüe para más de 30 idiomas, y (5) despliegue eficiente en teléfonos móviles. Más importante aún, MiniCPM-V puede considerarse un ejemplo representativo de una tendencia prometedora: los tamaños de los modelos para lograr un rendimiento de nivel utilizable (por ejemplo, GPT-4V) están disminuyendo rápidamente, junto con el rápido crecimiento de la capacidad de computación en los dispositivos de extremo. Esto muestra conjuntamente que los MLLMs de nivel GPT-4V desplegados en dispositivos de extremo están volviéndose cada vez más posibles, desbloqueando un espectro más amplio de aplicaciones de IA del mundo real en un futuro cercano.
English
The recent surge of Multimodal Large Language Models (MLLMs) has
fundamentally reshaped the landscape of AI research and industry, shedding
light on a promising path toward the next AI milestone. However, significant
challenges remain preventing MLLMs from being practical in real-world
applications. The most notable challenge comes from the huge cost of running an
MLLM with a massive number of parameters and extensive computation. As a
result, most MLLMs need to be deployed on high-performing cloud servers, which
greatly limits their application scopes such as mobile, offline,
energy-sensitive, and privacy-protective scenarios. In this work, we present
MiniCPM-V, a series of efficient MLLMs deployable on end-side devices. By
integrating the latest MLLM techniques in architecture, pretraining and
alignment, the latest MiniCPM-Llama3-V 2.5 has several notable features: (1)
Strong performance, outperforming GPT-4V-1106, Gemini Pro and Claude 3 on
OpenCompass, a comprehensive evaluation over 11 popular benchmarks, (2) strong
OCR capability and 1.8M pixel high-resolution image perception at any aspect
ratio, (3) trustworthy behavior with low hallucination rates, (4) multilingual
support for 30+ languages, and (5) efficient deployment on mobile phones. More
importantly, MiniCPM-V can be viewed as a representative example of a promising
trend: The model sizes for achieving usable (e.g., GPT-4V) level performance
are rapidly decreasing, along with the fast growth of end-side computation
capacity. This jointly shows that GPT-4V level MLLMs deployed on end devices
are becoming increasingly possible, unlocking a wider spectrum of real-world AI
applications in the near future.Summary
AI-Generated Summary