미니CPM-V: 당신의 핸드폰에서 작동하는 GPT-4V 수준의 MLLMMiniCPM-V: A GPT-4V Level MLLM on Your Phone
최근 다중 모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)의 급격한 증가는 AI 연구와 산업의 풍경을 근본적으로 바꿔놓았으며, 다음 AI 이정표로 향하는 유망한 길을 밝혀주었습니다. 그러나 실제 세계 응용 프로그램에서 MLLMs를 실용적으로 만드는 데 방해가 되는 중요한 도전 과제들이 여전히 존재합니다. 가장 주목할 만한 도전 과제는 막대한 수의 매개변수와 방대한 계산을 필요로 하는 MLLM을 실행하는 데 드는 엄청난 비용에서 나타납니다. 결과적으로 대부분의 MLLMs는 고성능 클라우드 서버에 배포되어야 하며, 이는 모바일, 오프라인, 에너지에 민감하며 개인 정보를 보호해야 하는 시나리오와 같은 응용 범위를 크게 제한합니다. 본 연구에서는 엔드-사이드 장치에 배포할 수 있는 효율적인 MLLM인 MiniCPM-V 시리즈를 제시합니다. 최신 MLLM 기술을 아키텍처, 사전 훈련 및 정렬에 통합함으로써, 최신 MiniCPM-Llama3-V 2.5는 다음과 같은 주목할 만한 특징을 가지고 있습니다: (1) OpenCompass에서 GPT-4V-1106, Gemini Pro 및 Claude 3을 능가하는 강력한 성능, 11가지 인기 있는 벤치마크를 종합적으로 평가한 결과, (2) 강력한 OCR 능력 및 어떠한 종횡비에서도 180만 화소 고해상도 이미지 인식, (3) 저 환각률로 신뢰할 수 있는 동작, (4) 30개 이상의 언어에 대한 다국어 지원, (5) 모바일 전화기에 효율적으로 배포될 수 있음. 더 중요한 것은 MiniCPM-V가 유용한(GPT-4V와 같은) 수준의 성능을 달성하기 위한 모델 크기가 빠르게 축소되고 있으며, 엔드-사이드 계산 능력의 급속한 성장과 함께 이러한 추세를 대표하는 예로 볼 수 있다는 점입니다. 이는 GPT-4V 수준의 MLLMs가 엔드 장치에 배포되어 점점 더 가능해지고 있으며, 향후 광범위한 실제 세계 AI 응용 프로그램의 가능성을 열어가고 있다는 것을 함께 보여줍니다.