MiniCPM-V: MLLM уровня GPT-4V на вашем телефонеMiniCPM-V: A GPT-4V Level MLLM on Your Phone
Недавний всплеск Мультимодальных Больших Языковых Моделей (MLLMs) фундаментально изменил пейзаж исследований и индустрии искусственного интеллекта, пролив свет на многообещающий путь к следующему веховому моменту в области ИИ. Однако значительные препятствия по-прежнему мешают MLLMs стать практичными в реальных приложениях. Самое заметное препятствие возникает из-за огромных затрат на запуск MLLM с огромным количеством параметров и обширных вычислений. В результате большинство MLLMs должны быть развернуты на высокопроизводительных облачных серверах, что значительно ограничивает их области применения, такие как мобильные, автономные, энергоэффективные и защищенные конфиденциальностью сценарии. В данной работе мы представляем MiniCPM-V, серию эффективных MLLMs, которые могут быть развернуты на устройствах на стороне конечного пользователя. Интегрируя последние техники MLLM в архитектуру, предварительное обучение и выравнивание, последняя версия MiniCPM-Llama3-V 2.5 имеет несколько заметных особенностей: (1) Высокая производительность, превосходящая GPT-4V-1106, Gemini Pro и Claude 3 на OpenCompass, обширной оценке по 11 популярным бенчмаркам, (2) высокая способность к распознаванию текста и восприятие изображений с разрешением 1,8 миллиона пикселей при любом соотношении сторон, (3) надежное поведение с низкими показателями галлюцинаций, (4) многоязычная поддержка для 30+ языков и (5) эффективное развертывание на мобильных телефонах. Что более важно, MiniCPM-V можно рассматривать как репрезентативный пример многообещающего тренда: размеры моделей для достижения приемлемой (например, GPT-4V) производительности быстро уменьшаются на фоне быстрого роста вычислительной мощности на стороне конечного пользователя. Это совместно показывает, что MLLMs уровня GPT-4V, развернутые на конечных устройствах, становятся все более возможными, открывая более широкий спектр реальных приложений искусственного интеллекта в ближайшем будущем.