Imp: 모바일 기기를 위한 고성능 대규모 멀티모달 모델
Imp: Highly Capable Large Multimodal Models for Mobile Devices
May 20, 2024
저자: Zhenwei Shao, Zhou Yu, Jun Yu, Xuecheng Ouyang, Lihao Zheng, Zhenbiao Gai, Mingyang Wang, Jiajun Ding
cs.AI
초록
대규모 언어 모델(LLMs)의 능력을 활용하여, 최근의 대규모 멀티모달 모델(LMMs)은 개방형 세계의 멀티모달 이해에서 놀라운 다양성을 보여주고 있습니다. 그러나 이러한 모델들은 일반적으로 매개변수가 많고 계산 집약적이어서, 자원이 제한된 시나리오에서의 적용이 어렵습니다. 이를 위해, 제한된 규모(예: 3B)에서의 능력을 극대화하기 위해 여러 경량 LMMs가 연이어 제안되었습니다. 이러한 방법들이 격려할 만한 결과를 달성했음에도 불구하고, 대부분의 방법들은 설계 공간의 한두 가지 측면에만 초점을 맞추고 있으며, 모델 능력에 영향을 미치는 주요 설계 선택들이 아직 철저히 연구되지 않았습니다. 본 논문에서는 모델 아키텍처, 훈련 전략, 훈련 데이터 측면에서 경량 LMMs에 대한 체계적인 연구를 수행합니다. 우리의 연구 결과를 바탕으로, 2B-4B 규모에서 높은 능력을 가진 Imp 모델 패밀리를 얻었습니다. 특히, 우리의 Imp-3B 모델은 유사한 크기의 모든 기존 경량 LMMs를 꾸준히 능가하며, 13B 규모의 최첨단 LMMs를 넘어서는 성능을 보여줍니다. 저비트 양자화 및 해상도 감소 기술을 통해, 우리의 Imp 모델은 Qualcomm Snapdragon 8Gen3 모바일 칩에 배포될 수 있으며, 약 13 토큰/초의 높은 추론 속도를 달성합니다.
English
By harnessing the capabilities of large language models (LLMs), recent large
multimodal models (LMMs) have shown remarkable versatility in open-world
multimodal understanding. Nevertheless, they are usually parameter-heavy and
computation-intensive, thus hindering their applicability in
resource-constrained scenarios. To this end, several lightweight LMMs have been
proposed successively to maximize the capabilities under constrained scale
(e.g., 3B). Despite the encouraging results achieved by these methods, most of
them only focus on one or two aspects of the design space, and the key design
choices that influence model capability have not yet been thoroughly
investigated. In this paper, we conduct a systematic study for lightweight LMMs
from the aspects of model architecture, training strategy, and training data.
Based on our findings, we obtain Imp -- a family of highly capable LMMs at the
2B-4B scales. Notably, our Imp-3B model steadily outperforms all the existing
lightweight LMMs of similar size, and even surpasses the state-of-the-art LMMs
at the 13B scale. With low-bit quantization and resolution reduction
techniques, our Imp model can be deployed on a Qualcomm Snapdragon 8Gen3 mobile
chip with a high inference speed of about 13 tokens/s.Summary
AI-Generated Summary