MiniCPM-V: Un MLLM de Nivel GPT-4V en tu TeléfonoMiniCPM-V: A GPT-4V Level MLLM on Your Phone
La reciente oleada de Modelos de Lenguaje Multimodales de Gran Tamaño (MLLMs, por sus siglas en inglés) ha transformado fundamentalmente el panorama de la investigación y la industria de la IA, arrojando luz sobre un camino prometedor hacia el próximo hito de la IA. Sin embargo, persisten desafíos significativos que impiden que los MLLMs sean prácticos en aplicaciones del mundo real. El desafío más notable proviene del enorme costo de ejecutar un MLLM con un gran número de parámetros y una extensa computación. Como resultado, la mayoría de los MLLMs necesitan ser desplegados en servidores en la nube de alto rendimiento, lo que limita en gran medida sus ámbitos de aplicación, como en escenarios móviles, sin conexión, sensibles a la energía y protectores de la privacidad. En este trabajo, presentamos MiniCPM-V, una serie de MLLMs eficientes desplegables en dispositivos de extremo. Al integrar las últimas técnicas de MLLM en arquitectura, preentrenamiento y alineación, el último MiniCPM-Llama3-V 2.5 tiene varias características notables: (1) Alto rendimiento, superando a GPT-4V-1106, Gemini Pro y Claude 3 en OpenCompass, una evaluación exhaustiva sobre 11 benchmarks populares, (2) sólida capacidad de OCR y percepción de imágenes de alta resolución de 1.8M píxeles en cualquier relación de aspecto, (3) comportamiento confiable con bajos índices de alucinación, (4) soporte multilingüe para más de 30 idiomas, y (5) despliegue eficiente en teléfonos móviles. Más importante aún, MiniCPM-V puede considerarse un ejemplo representativo de una tendencia prometedora: los tamaños de los modelos para lograr un rendimiento de nivel utilizable (por ejemplo, GPT-4V) están disminuyendo rápidamente, junto con el rápido crecimiento de la capacidad de computación en los dispositivos de extremo. Esto muestra conjuntamente que los MLLMs de nivel GPT-4V desplegados en dispositivos de extremo están volviéndose cada vez más posibles, desbloqueando un espectro más amplio de aplicaciones de IA del mundo real en un futuro cercano.