미니CPM-V: 당신의 핸드폰에서 작동하는 GPT-4V 수준의 MLLM
MiniCPM-V: A GPT-4V Level MLLM on Your Phone
August 3, 2024
저자: Yuan Yao, Tianyu Yu, Ao Zhang, Chongyi Wang, Junbo Cui, Hongji Zhu, Tianchi Cai, Haoyu Li, Weilin Zhao, Zhihui He, Qianyu Chen, Huarong Zhou, Zhensheng Zou, Haoye Zhang, Shengding Hu, Zhi Zheng, Jie Zhou, Jie Cai, Xu Han, Guoyang Zeng, Dahai Li, Zhiyuan Liu, Maosong Sun
cs.AI
초록
최근 다중 모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)의 급격한 증가는 AI 연구와 산업의 풍경을 근본적으로 바꿔놓았으며, 다음 AI 이정표로 향하는 유망한 길을 밝혀주었습니다. 그러나 실제 세계 응용 프로그램에서 MLLMs를 실용적으로 만드는 데 방해가 되는 중요한 도전 과제들이 여전히 존재합니다. 가장 주목할 만한 도전 과제는 막대한 수의 매개변수와 방대한 계산을 필요로 하는 MLLM을 실행하는 데 드는 엄청난 비용에서 나타납니다. 결과적으로 대부분의 MLLMs는 고성능 클라우드 서버에 배포되어야 하며, 이는 모바일, 오프라인, 에너지에 민감하며 개인 정보를 보호해야 하는 시나리오와 같은 응용 범위를 크게 제한합니다. 본 연구에서는 엔드-사이드 장치에 배포할 수 있는 효율적인 MLLM인 MiniCPM-V 시리즈를 제시합니다. 최신 MLLM 기술을 아키텍처, 사전 훈련 및 정렬에 통합함으로써, 최신 MiniCPM-Llama3-V 2.5는 다음과 같은 주목할 만한 특징을 가지고 있습니다: (1) OpenCompass에서 GPT-4V-1106, Gemini Pro 및 Claude 3을 능가하는 강력한 성능, 11가지 인기 있는 벤치마크를 종합적으로 평가한 결과, (2) 강력한 OCR 능력 및 어떠한 종횡비에서도 180만 화소 고해상도 이미지 인식, (3) 저 환각률로 신뢰할 수 있는 동작, (4) 30개 이상의 언어에 대한 다국어 지원, (5) 모바일 전화기에 효율적으로 배포될 수 있음. 더 중요한 것은 MiniCPM-V가 유용한(GPT-4V와 같은) 수준의 성능을 달성하기 위한 모델 크기가 빠르게 축소되고 있으며, 엔드-사이드 계산 능력의 급속한 성장과 함께 이러한 추세를 대표하는 예로 볼 수 있다는 점입니다. 이는 GPT-4V 수준의 MLLMs가 엔드 장치에 배포되어 점점 더 가능해지고 있으며, 향후 광범위한 실제 세계 AI 응용 프로그램의 가능성을 열어가고 있다는 것을 함께 보여줍니다.
English
The recent surge of Multimodal Large Language Models (MLLMs) has
fundamentally reshaped the landscape of AI research and industry, shedding
light on a promising path toward the next AI milestone. However, significant
challenges remain preventing MLLMs from being practical in real-world
applications. The most notable challenge comes from the huge cost of running an
MLLM with a massive number of parameters and extensive computation. As a
result, most MLLMs need to be deployed on high-performing cloud servers, which
greatly limits their application scopes such as mobile, offline,
energy-sensitive, and privacy-protective scenarios. In this work, we present
MiniCPM-V, a series of efficient MLLMs deployable on end-side devices. By
integrating the latest MLLM techniques in architecture, pretraining and
alignment, the latest MiniCPM-Llama3-V 2.5 has several notable features: (1)
Strong performance, outperforming GPT-4V-1106, Gemini Pro and Claude 3 on
OpenCompass, a comprehensive evaluation over 11 popular benchmarks, (2) strong
OCR capability and 1.8M pixel high-resolution image perception at any aspect
ratio, (3) trustworthy behavior with low hallucination rates, (4) multilingual
support for 30+ languages, and (5) efficient deployment on mobile phones. More
importantly, MiniCPM-V can be viewed as a representative example of a promising
trend: The model sizes for achieving usable (e.g., GPT-4V) level performance
are rapidly decreasing, along with the fast growth of end-side computation
capacity. This jointly shows that GPT-4V level MLLMs deployed on end devices
are becoming increasingly possible, unlocking a wider spectrum of real-world AI
applications in the near future.Summary
AI-Generated Summary