BlueLM-V-3B: Алгоритм и совместное проектирование системы для мультимодальных крупных языковых моделей на мобильных устройствах
BlueLM-V-3B: Algorithm and System Co-Design for Multimodal Large Language Models on Mobile Devices
November 16, 2024
Авторы: Xudong Lu, Yinghao Chen, Cheng Chen, Hui Tan, Boheng Chen, Yina Xie, Rui Hu, Guanxin Tan, Renshou Wu, Yan Hu, Yi Zeng, Lei Wu, Liuyang Bian, Zhaoxiong Wang, Long Liu, Yanzhou Yang, Han Xiao, Aojun Zhou, Yafei Wen, Xiaoxin Chen, Shuai Ren, Hongsheng Li
cs.AI
Аннотация
Появление и растущая популярность мультимодальных больших языковых моделей (MLLM) имеют значительный потенциал для улучшения различных аспектов повседневной жизни, начиная от улучшения коммуникации до облегчения обучения и решения проблем. Мобильные телефоны, как неотъемлемые ежедневные спутники, представляют собой наиболее эффективную и доступную платформу развертывания для MLLM, обеспечивая безпрепятственную интеграцию в повседневные задачи. Однако развертывание MLLM на мобильных телефонах ставит перед собой вызовы из-за ограничений по объему памяти и вычислительной мощности, что затрудняет достижение плавной и мгновенной обработки без обширной оптимизации. В данной статье мы представляем BlueLM-V-3B, алгоритм и системный подход к совместному проектированию, специально разработанный для эффективного развертывания MLLM на мобильных платформах. Для более конкретного описания, мы перерабатываем схему динамического разрешения, принятую в основных MLLM, и реализуем оптимизацию системы для развертывания с учетом аппаратных средств для оптимизации вывода модели на мобильных телефонах. BlueLM-V-3B обладает следующими ключевыми особенностями: (1) Малый размер: BlueLM-V-3B включает языковую модель с 2,7 миллиарда параметров и видеоэнкодер с 400 миллионами параметров. (2) Быстрая скорость: BlueLM-V-3B достигает скорости генерации 24,4 токена/с на процессоре MediaTek Dimensity 9300 с квантованием весов LLM на 4 бита. (3) Высокая производительность: BlueLM-V-3B достиг самого высокого среднего показателя 66,1 на бенчмарке OpenCompass среди моделей с числом параметров менее 4 миллиардов и превзошел ряд моделей с гораздо большими размерами параметров (например, MiniCPM-V-2.6, InternVL2-8B).
English
The emergence and growing popularity of multimodal large language models
(MLLMs) have significant potential to enhance various aspects of daily life,
from improving communication to facilitating learning and problem-solving.
Mobile phones, as essential daily companions, represent the most effective and
accessible deployment platform for MLLMs, enabling seamless integration into
everyday tasks. However, deploying MLLMs on mobile phones presents challenges
due to limitations in memory size and computational capability, making it
difficult to achieve smooth and real-time processing without extensive
optimization. In this paper, we present BlueLM-V-3B, an algorithm and system
co-design approach specifically tailored for the efficient deployment of MLLMs
on mobile platforms. To be specific, we redesign the dynamic resolution scheme
adopted by mainstream MLLMs and implement system optimization for
hardware-aware deployment to optimize model inference on mobile phones.
BlueLM-V-3B boasts the following key highlights: (1) Small Size: BlueLM-V-3B
features a language model with 2.7B parameters and a vision encoder with 400M
parameters. (2) Fast Speed: BlueLM-V-3B achieves a generation speed of 24.4
token/s on the MediaTek Dimensity 9300 processor with 4-bit LLM weight
quantization. (3) Strong Performance: BlueLM-V-3B has attained the highest
average score of 66.1 on the OpenCompass benchmark among models with leq 4B
parameters and surpassed a series of models with much larger parameter sizes
(e.g., MiniCPM-V-2.6, InternVL2-8B).Summary
AI-Generated Summary