InternVL3: Erforschung fortgeschrittener Trainings- und Testzeitmethoden für Open-Source-Multimodale ModelleInternVL3: Exploring Advanced Training and Test-Time Recipes for
Open-Source Multimodal Models
Wir stellen InternVL3 vor, einen bedeutenden Fortschritt in der InternVL-Serie, der ein natives multimodales Vortrainingsparadigma bietet. Anstatt ein textbasiertes großes Sprachmodell (LLM) in ein multimodales großes Sprachmodell (MLLM) zu adaptieren, das visuelle Eingaben unterstützt, erwirbt InternVL3 multimodale und linguistische Fähigkeiten gemeinsam aus diversen multimodalen Daten und reinen Textkorpora während einer einzigen Vortrainingsphase. Dieses einheitliche Trainingsparadigma adressiert effektiv die Komplexitäten und Ausrichtungsprobleme, die häufig in konventionellen nachträglichen Trainingspipelines für MLLMs auftreten. Um die Leistung und Skalierbarkeit weiter zu verbessern, integriert InternVL3 eine variable visuelle Positionskodierung (V2PE) zur Unterstützung erweiterter multimodaler Kontexte, verwendet fortgeschrittene Nachtrainings-Techniken wie überwachte Feinabstimmung (SFT) und gemischte Präferenzoptimierung (MPO) und setzt Testzeit-Skalierungsstrategien sowie eine optimierte Trainingsinfrastruktur ein. Umfangreiche empirische Auswertungen zeigen, dass InternVL3 überlegene Leistung in einer Vielzahl von multimodalen Aufgaben erzielt. Insbesondere erreicht InternVL3-78B eine Punktzahl von 72,2 auf dem MMMU-Benchmark und setzt damit einen neuen Maßstab unter Open-Source-MLLMs. Seine Fähigkeiten bleiben hochgradig wettbewerbsfähig mit führenden proprietären Modellen, einschließlich ChatGPT-4o, Claude 3.5 Sonnet und Gemini 2.5 Pro, während es gleichzeitig eine starke rein sprachliche Kompetenz beibehält. Im Einklang mit den Prinzipien der offenen Wissenschaft werden wir sowohl die Trainingsdaten als auch die Modellgewichte öffentlich freigeben, um die weitere Forschung und Entwicklung in der nächsten Generation von MLLMs zu fördern.