Erweiterung der Leistungsgrenzen von Open-Source Multimodal-Modellen durch Modell-, Daten- und Skalierung zur TestzeitExpanding Performance Boundaries of Open-Source Multimodal Models with
Model, Data, and Test-Time Scaling
Wir stellen InternVL 2.5 vor, eine fortschrittliche multimodale große Sprachmodellserie (MLLM), die auf InternVL 2.0 aufbaut und dessen Kernmodellarchitektur beibehält, während sie signifikante Verbesserungen in Trainings- und Teststrategien sowie Datenqualität einführt. In dieser Arbeit gehen wir auf die Beziehung zwischen Modellskalierung und Leistung ein, indem wir systematisch die Leistungstrends in Vision Encodern, Sprachmodellen, Datensatzgrößen und Testzeitkonfigurationen untersuchen. Durch umfangreiche Evaluationen auf einer Vielzahl von Benchmarks, einschließlich multidisziplinärem Denken, Dokumentenverständnis, Multi-Image-/Videoverständnis, Verständnis der realen Welt, multimodaler Halluzinationserkennung, visueller Verankerung, mehrsprachigen Fähigkeiten und reiner Sprachverarbeitung, zeigt InternVL 2.5 eine wettbewerbsfähige Leistung und konkurriert mit führenden kommerziellen Modellen wie GPT-4o und Claude-3.5-Sonnet. Beachtenswert ist, dass unser Modell das erste Open-Source MLLM ist, das die 70%-Marke beim MMMU-Benchmark überschreitet, eine Verbesserung um 3,7 Punkte durch Chain-of-Thought (CoT)-Denken erzielt und ein starkes Potenzial für die Skalierung zur Testzeit zeigt. Wir hoffen, dass dieses Modell zur Open-Source-Community beiträgt, indem es neue Standards für die Entwicklung und Anwendung multimodaler KI-Systeme setzt. HuggingFace-Demo siehe https://huggingface.co/spaces/OpenGVLab/InternVL