BlueLM-V-3B: Diseño Conjunto de Algoritmo y Sistema para Modelos de Lenguaje Multimodal de Gran Escala en Dispositivos Móviles
BlueLM-V-3B: Algorithm and System Co-Design for Multimodal Large Language Models on Mobile Devices
November 16, 2024
Autores: Xudong Lu, Yinghao Chen, Cheng Chen, Hui Tan, Boheng Chen, Yina Xie, Rui Hu, Guanxin Tan, Renshou Wu, Yan Hu, Yi Zeng, Lei Wu, Liuyang Bian, Zhaoxiong Wang, Long Liu, Yanzhou Yang, Han Xiao, Aojun Zhou, Yafei Wen, Xiaoxin Chen, Shuai Ren, Hongsheng Li
cs.AI
Resumen
La aparición y creciente popularidad de los modelos de lenguaje grandes multimodales (MLLMs) tienen un potencial significativo para mejorar varios aspectos de la vida diaria, desde mejorar la comunicación hasta facilitar el aprendizaje y la resolución de problemas. Los teléfonos móviles, como compañeros diarios esenciales, representan la plataforma de implementación más efectiva y accesible para los MLLMs, permitiendo una integración fluida en las tareas cotidianas. Sin embargo, desplegar MLLMs en teléfonos móviles presenta desafíos debido a limitaciones en el tamaño de la memoria y la capacidad computacional, lo que dificulta lograr un procesamiento suave y en tiempo real sin una optimización extensiva. En este documento, presentamos BlueLM-V-3B, un enfoque de co-diseño de algoritmo y sistema específicamente diseñado para el despliegue eficiente de MLLMs en plataformas móviles. Específicamente, rediseñamos el esquema de resolución dinámica adoptado por los MLLMs convencionales e implementamos optimización del sistema para el despliegue consciente del hardware para optimizar la inferencia del modelo en teléfonos móviles. BlueLM-V-3B cuenta con los siguientes aspectos destacados clave: (1) Tamaño Pequeño: BlueLM-V-3B presenta un modelo de lenguaje con 2.7B parámetros y un codificador de visión con 400M parámetros. (2) Velocidad Rápida: BlueLM-V-3B logra una velocidad de generación de 24.4 tokens/s en el procesador MediaTek Dimensity 9300 con cuantificación de peso de LLM de 4 bits. (3) Alto Rendimiento: BlueLM-V-3B ha alcanzado la puntuación promedio más alta de 66.1 en el benchmark OpenCompass entre modelos con parámetros leq 4B y ha superado a una serie de modelos con tamaños de parámetros mucho más grandes (por ejemplo, MiniCPM-V-2.6, InternVL2-8B).
English
The emergence and growing popularity of multimodal large language models
(MLLMs) have significant potential to enhance various aspects of daily life,
from improving communication to facilitating learning and problem-solving.
Mobile phones, as essential daily companions, represent the most effective and
accessible deployment platform for MLLMs, enabling seamless integration into
everyday tasks. However, deploying MLLMs on mobile phones presents challenges
due to limitations in memory size and computational capability, making it
difficult to achieve smooth and real-time processing without extensive
optimization. In this paper, we present BlueLM-V-3B, an algorithm and system
co-design approach specifically tailored for the efficient deployment of MLLMs
on mobile platforms. To be specific, we redesign the dynamic resolution scheme
adopted by mainstream MLLMs and implement system optimization for
hardware-aware deployment to optimize model inference on mobile phones.
BlueLM-V-3B boasts the following key highlights: (1) Small Size: BlueLM-V-3B
features a language model with 2.7B parameters and a vision encoder with 400M
parameters. (2) Fast Speed: BlueLM-V-3B achieves a generation speed of 24.4
token/s on the MediaTek Dimensity 9300 processor with 4-bit LLM weight
quantization. (3) Strong Performance: BlueLM-V-3B has attained the highest
average score of 66.1 on the OpenCompass benchmark among models with leq 4B
parameters and surpassed a series of models with much larger parameter sizes
(e.g., MiniCPM-V-2.6, InternVL2-8B).Summary
AI-Generated Summary