MiniCPM-V:在您的手機上運行的 GPT-4V 級別 MLLMMiniCPM-V: A GPT-4V Level MLLM on Your Phone
最近多模式大型語言模型(MLLMs)的激增徹底改變了人工智慧研究和產業的格局,為邁向下一個人工智慧里程碑指明了一條充滿希望的道路。然而,仍然存在著重大挑戰,阻礙了MLLMs在實際應用中的可行性。其中最引人注目的挑戰來自運行具有龐大參數和龐大計算量的MLLM所需的巨大成本。因此,大多數MLLMs需要部署在高性能的雲伺服器上,這大大限制了它們的應用範圍,如移動、離線、對能源敏感和保護隱私的情境。在這項工作中,我們提出了MiniCPM-V,這是一系列可部署在端設備上的高效MLLMs。通過在架構、預訓練和對齊方面整合最新的MLLM技術,最新的MiniCPM-Llama3-V 2.5 具有幾個顯著特點:(1)強大的性能,在OpenCompass上優於GPT-4V-1106、Gemini Pro和Claude 3,這是對11個熱門基準測試的全面評估,(2)強大的OCR能力和對任何長寬比的180萬像素高分辨率圖像感知,(3)低幻覺率的值得信賴的行為,(4)支持30多種語言的多語言支持,以及(5)在移動手機上的高效部署。更重要的是,MiniCPM-V可以被視為一個有前途的趨勢的代表性例子:實現可用性(例如GPT-4V)級別性能所需的模型大小正在迅速減小,與端設備計算能力的快速增長相呼應。這共同顯示,GPT-4V級別的MLLMs部署在端設備上正變得越來越可能,很快將在未來解鎖更廣泛的實際人工智慧應用領域。