Imp: Modelos Multimodales de Gran Capacidad para Dispositivos Móviles

Resumen

Al aprovechar las capacidades de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), los recientes modelos multimodales de gran escala (LMMs) han demostrado una notable versatilidad en la comprensión multimodal de entornos abiertos. Sin embargo, estos modelos suelen ser pesados en parámetros y requieren un intenso uso de recursos computacionales, lo que limita su aplicabilidad en escenarios con recursos restringidos. Para abordar este problema, se han propuesto varios LMMs ligeros de manera sucesiva con el objetivo de maximizar sus capacidades bajo una escala limitada (por ejemplo, 3B). A pesar de los resultados alentadores obtenidos por estos métodos, la mayoría se centra en uno o dos aspectos del espacio de diseño, y las decisiones clave de diseño que influyen en la capacidad del modelo aún no han sido investigadas exhaustivamente. En este artículo, realizamos un estudio sistemático de los LMMs ligeros desde los aspectos de la arquitectura del modelo, la estrategia de entrenamiento y los datos de entrenamiento. Basándonos en nuestros hallazgos, desarrollamos Imp, una familia de LMMs altamente competentes en escalas de 2B a 4B. En particular, nuestro modelo Imp-3B supera constantemente a todos los LMMs ligeros existentes de tamaño similar e incluso supera a los LMMs más avanzados en la escala de 13B. Con técnicas de cuantización de bajo bit y reducción de resolución, nuestro modelo Imp puede implementarse en un chip móvil Qualcomm Snapdragon 8Gen3 con una velocidad de inferencia alta de aproximadamente 13 tokens por segundo.

English

By harnessing the capabilities of large language models (LLMs), recent large multimodal models (LMMs) have shown remarkable versatility in open-world multimodal understanding. Nevertheless, they are usually parameter-heavy and computation-intensive, thus hindering their applicability in resource-constrained scenarios. To this end, several lightweight LMMs have been proposed successively to maximize the capabilities under constrained scale (e.g., 3B). Despite the encouraging results achieved by these methods, most of them only focus on one or two aspects of the design space, and the key design choices that influence model capability have not yet been thoroughly investigated. In this paper, we conduct a systematic study for lightweight LMMs from the aspects of model architecture, training strategy, and training data. Based on our findings, we obtain Imp -- a family of highly capable LMMs at the 2B-4B scales. Notably, our Imp-3B model steadily outperforms all the existing lightweight LMMs of similar size, and even surpasses the state-of-the-art LMMs at the 13B scale. With low-bit quantization and resolution reduction techniques, our Imp model can be deployed on a Qualcomm Snapdragon 8Gen3 mobile chip with a high inference speed of about 13 tokens/s.

Imp: Modelos Multimodales de Gran Capacidad para Dispositivos Móviles

Imp: Highly Capable Large Multimodal Models for Mobile Devices

Resumen

Support