Imp: Modelos Multimodales de Gran Capacidad para Dispositivos Móviles
Imp: Highly Capable Large Multimodal Models for Mobile Devices
May 20, 2024
Autores: Zhenwei Shao, Zhou Yu, Jun Yu, Xuecheng Ouyang, Lihao Zheng, Zhenbiao Gai, Mingyang Wang, Jiajun Ding
cs.AI
Resumen
Al aprovechar las capacidades de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), los recientes modelos multimodales de gran escala (LMMs) han demostrado una notable versatilidad en la comprensión multimodal de entornos abiertos. Sin embargo, estos modelos suelen ser pesados en parámetros y requieren un intenso uso de recursos computacionales, lo que limita su aplicabilidad en escenarios con recursos restringidos. Para abordar este problema, se han propuesto varios LMMs ligeros de manera sucesiva con el objetivo de maximizar sus capacidades bajo una escala limitada (por ejemplo, 3B). A pesar de los resultados alentadores obtenidos por estos métodos, la mayoría se centra en uno o dos aspectos del espacio de diseño, y las decisiones clave de diseño que influyen en la capacidad del modelo aún no han sido investigadas exhaustivamente. En este artículo, realizamos un estudio sistemático de los LMMs ligeros desde los aspectos de la arquitectura del modelo, la estrategia de entrenamiento y los datos de entrenamiento. Basándonos en nuestros hallazgos, desarrollamos Imp, una familia de LMMs altamente competentes en escalas de 2B a 4B. En particular, nuestro modelo Imp-3B supera constantemente a todos los LMMs ligeros existentes de tamaño similar e incluso supera a los LMMs más avanzados en la escala de 13B. Con técnicas de cuantización de bajo bit y reducción de resolución, nuestro modelo Imp puede implementarse en un chip móvil Qualcomm Snapdragon 8Gen3 con una velocidad de inferencia alta de aproximadamente 13 tokens por segundo.
English
By harnessing the capabilities of large language models (LLMs), recent large
multimodal models (LMMs) have shown remarkable versatility in open-world
multimodal understanding. Nevertheless, they are usually parameter-heavy and
computation-intensive, thus hindering their applicability in
resource-constrained scenarios. To this end, several lightweight LMMs have been
proposed successively to maximize the capabilities under constrained scale
(e.g., 3B). Despite the encouraging results achieved by these methods, most of
them only focus on one or two aspects of the design space, and the key design
choices that influence model capability have not yet been thoroughly
investigated. In this paper, we conduct a systematic study for lightweight LMMs
from the aspects of model architecture, training strategy, and training data.
Based on our findings, we obtain Imp -- a family of highly capable LMMs at the
2B-4B scales. Notably, our Imp-3B model steadily outperforms all the existing
lightweight LMMs of similar size, and even surpasses the state-of-the-art LMMs
at the 13B scale. With low-bit quantization and resolution reduction
techniques, our Imp model can be deployed on a Qualcomm Snapdragon 8Gen3 mobile
chip with a high inference speed of about 13 tokens/s.Summary
AI-Generated Summary