MiniCPM-V: Ein MLLM auf GPT-4V-Niveau auf Ihrem TelefonMiniCPM-V: A GPT-4V Level MLLM on Your Phone
Die jüngste Welle von Multimodalen Großen Sprachmodellen (MLLMs) hat das Forschungs- und Industrielandschaft der KI grundlegend verändert und einen vielversprechenden Weg zum nächsten KI-Meilenstein aufgezeigt. Es gibt jedoch weiterhin bedeutende Herausforderungen, die verhindern, dass MLLMs in der Praxis in realen Anwendungen eingesetzt werden können. Die herausragendste Herausforderung ergibt sich aus den enormen Kosten für den Betrieb eines MLLMs mit einer riesigen Anzahl von Parametern und umfangreichen Berechnungen. Als Ergebnis müssen die meisten MLLMs auf leistungsstarken Cloud-Servern bereitgestellt werden, was ihre Anwendungsbereiche wie mobile, offline, energieempfindliche und datenschutzsensible Szenarien erheblich einschränkt. In dieser Arbeit präsentieren wir MiniCPM-V, eine Serie effizienter MLLMs, die auf Endgeräten einsetzbar sind. Durch die Integration der neuesten MLLM-Techniken in Architektur, Vortraining und Ausrichtung weist das neueste MiniCPM-Llama3-V 2.5 mehrere bemerkenswerte Merkmale auf: (1) Starke Leistung, die GPT-4V-1106, Gemini Pro und Claude 3 in OpenCompass, einer umfassenden Bewertung über 11 beliebte Benchmarks, übertrifft, (2) starke OCR-Fähigkeiten und eine 1,8 Millionen Pixel hochauflösende Bildwahrnehmung bei beliebigem Seitenverhältnis, (3) vertrauenswürdiges Verhalten mit niedrigen Halluzinationsraten, (4) mehrsprachige Unterstützung für über 30 Sprachen und (5) effiziente Bereitstellung auf Mobiltelefonen. Noch wichtiger ist, dass MiniCPM-V als repräsentatives Beispiel für einen vielversprechenden Trend angesehen werden kann: Die Modellgrößen, um eine nutzbare (z. B. GPT-4V) Leistung zu erzielen, nehmen rapide ab, zusammen mit dem schnellen Wachstum der Endgeräte-Berechnungskapazität. Dies zeigt gemeinsam, dass MLLMs auf GPT-4V-Niveau, die auf Endgeräten bereitgestellt werden, zunehmend möglich werden und in naher Zukunft ein breiteres Spektrum an KI-Anwendungen in der realen Welt erschließen.