ChatPaper.aiChatPaper

BlueLM-V-3B: Algoritmo e Co-Design de Sistema para Modelos de Linguagem Multimodais de Grande Escala em Dispositivos Móveis

BlueLM-V-3B: Algorithm and System Co-Design for Multimodal Large Language Models on Mobile Devices

November 16, 2024
Autores: Xudong Lu, Yinghao Chen, Cheng Chen, Hui Tan, Boheng Chen, Yina Xie, Rui Hu, Guanxin Tan, Renshou Wu, Yan Hu, Yi Zeng, Lei Wu, Liuyang Bian, Zhaoxiong Wang, Long Liu, Yanzhou Yang, Han Xiao, Aojun Zhou, Yafei Wen, Xiaoxin Chen, Shuai Ren, Hongsheng Li
cs.AI

Resumo

O surgimento e a crescente popularidade dos modelos de linguagem multimodais de grande escala (MLLMs) têm um potencial significativo para aprimorar vários aspectos da vida diária, desde a melhoria da comunicação até a facilitação da aprendizagem e resolução de problemas. Os telefones celulares, como companheiros diários essenciais, representam a plataforma de implantação mais eficaz e acessível para MLLMs, possibilitando a integração perfeita em tarefas cotidianas. No entanto, a implantação de MLLMs em telefones celulares apresenta desafios devido às limitações no tamanho da memória e na capacidade computacional, tornando difícil alcançar um processamento suave e em tempo real sem uma extensa otimização. Neste artigo, apresentamos o BlueLM-V-3B, uma abordagem de co-design de algoritmo e sistema especificamente adaptada para a implantação eficiente de MLLMs em plataformas móveis. Especificamente, redesenhamos o esquema de resolução dinâmica adotado pelos MLLMs convencionais e implementamos otimização de sistema para a implantação consciente de hardware, a fim de otimizar a inferência do modelo em telefones celulares. O BlueLM-V-3B apresenta os seguintes destaques principais: (1) Tamanho Pequeno: o BlueLM-V-3B possui um modelo de linguagem com 2,7 bilhões de parâmetros e um codificador de visão com 400 milhões de parâmetros. (2) Velocidade Rápida: o BlueLM-V-3B alcança uma velocidade de geração de 24,4 tokens/s no processador MediaTek Dimensity 9300 com quantização de peso LLM de 4 bits. (3) Desempenho Robusto: o BlueLM-V-3B obteve a maior pontuação média de 66,1 no benchmark OpenCompass entre os modelos com menos ou igual a 4 bilhões de parâmetros e superou uma série de modelos com tamanhos de parâmetros muito maiores (por exemplo, MiniCPM-V-2.6, InternVL2-8B).
English
The emergence and growing popularity of multimodal large language models (MLLMs) have significant potential to enhance various aspects of daily life, from improving communication to facilitating learning and problem-solving. Mobile phones, as essential daily companions, represent the most effective and accessible deployment platform for MLLMs, enabling seamless integration into everyday tasks. However, deploying MLLMs on mobile phones presents challenges due to limitations in memory size and computational capability, making it difficult to achieve smooth and real-time processing without extensive optimization. In this paper, we present BlueLM-V-3B, an algorithm and system co-design approach specifically tailored for the efficient deployment of MLLMs on mobile platforms. To be specific, we redesign the dynamic resolution scheme adopted by mainstream MLLMs and implement system optimization for hardware-aware deployment to optimize model inference on mobile phones. BlueLM-V-3B boasts the following key highlights: (1) Small Size: BlueLM-V-3B features a language model with 2.7B parameters and a vision encoder with 400M parameters. (2) Fast Speed: BlueLM-V-3B achieves a generation speed of 24.4 token/s on the MediaTek Dimensity 9300 processor with 4-bit LLM weight quantization. (3) Strong Performance: BlueLM-V-3B has attained the highest average score of 66.1 on the OpenCompass benchmark among models with leq 4B parameters and surpassed a series of models with much larger parameter sizes (e.g., MiniCPM-V-2.6, InternVL2-8B).

Summary

AI-Generated Summary

PDF475November 19, 2024