MiniCPM-V: Um MLLM de Nível GPT-4V no Seu CelularMiniCPM-V: A GPT-4V Level MLLM on Your Phone
O recente aumento dos Modelos de Linguagem Multimodais de Grande Escala (MLLMs) remodelou fundamentalmente o cenário da pesquisa e indústria de IA, lançando luz sobre um caminho promissor em direção ao próximo marco da IA. No entanto, desafios significativos ainda impedem que os MLLMs sejam práticos em aplicações do mundo real. O desafio mais notável surge do alto custo de executar um MLLM com um grande número de parâmetros e extensa computação. Como resultado, a maioria dos MLLMs precisa ser implantada em servidores em nuvem de alto desempenho, o que limita grandemente seus escopos de aplicação, como em cenários móveis, offline, sensíveis à energia e de proteção de privacidade. Neste trabalho, apresentamos o MiniCPM-V, uma série de MLLMs eficientes implantáveis em dispositivos de ponta. Ao integrar as técnicas mais recentes de MLLM em arquitetura, pré-treinamento e alinhamento, o mais recente MiniCPM-Llama3-V 2.5 possui várias características notáveis: (1) Alto desempenho, superando o GPT-4V-1106, Gemini Pro e Claude 3 no OpenCompass, uma avaliação abrangente em 11 benchmarks populares, (2) forte capacidade de OCR e percepção de imagem de alta resolução de 1,8M pixels em qualquer proporção, (3) comportamento confiável com baixas taxas de alucinação, (4) suporte multilíngue para mais de 30 idiomas e (5) implantação eficiente em telefones celulares. Mais importante ainda, o MiniCPM-V pode ser visto como um exemplo representativo de uma tendência promissora: os tamanhos de modelo para alcançar desempenho de nível utilizável (por exemplo, GPT-4V) estão diminuindo rapidamente, juntamente com o rápido crescimento da capacidade de computação de ponta. Isso demonstra conjuntamente que MLLMs de nível GPT-4V implantados em dispositivos de ponta estão se tornando cada vez mais possíveis, desbloqueando um espectro mais amplo de aplicações de IA do mundo real em um futuro próximo.