InternVL3: Verkenning van geavanceerde trainings- en testtijdrecepten voor open-source multimodale modellenInternVL3: Exploring Advanced Training and Test-Time Recipes for
Open-Source Multimodal Models
We introduceren InternVL3, een belangrijke vooruitgang in de InternVL-serie die een native multimodale voorafgaande trainingsparadigma introduceert. In plaats van een tekst-gebaseerd groot taalmodel (LLM) aan te passen naar een multimodaal groot taalmodel (MLLM) dat visuele invoer ondersteunt, verwerft InternVL3 zowel multimodale als linguïstische capaciteiten gezamenlijk vanuit diverse multimodale data en pure-tekst corpora tijdens een enkele voorafgaande trainingsfase. Dit geïntegreerde trainingsparadigma lost effectief de complexiteiten en uitlijningsuitdagingen op die vaak worden aangetroffen in conventionele achteraf-trainingspijplijnen voor MLLMs. Om de prestaties en schaalbaarheid verder te verbeteren, integreert InternVL3 variabele visuele positiecodering (V2PE) om uitgebreide multimodale contexten te ondersteunen, maakt het gebruik van geavanceerde post-trainings technieken zoals begeleid fijn afstemmen (SFT) en gemengde voorkeursoptimalisatie (MPO), en neemt het testtijd-schaalstrategieën aan naast een geoptimaliseerde trainingsinfrastructuur. Uitgebreide empirische evaluaties tonen aan dat InternVL3 superieure prestaties levert over een breed scala aan multimodale taken. In het bijzonder behaalt InternVL3-78B een score van 72.2 op de MMMU-benchmark, waarmee het een nieuwe state-of-the-art vestigt onder open-source MLLMs. De capaciteiten blijven zeer concurrerend met toonaangevende propriëtaire modellen, waaronder ChatGPT-4o, Claude 3.5 Sonnet en Gemini 2.5 Pro, terwijl het ook sterke pure-taalvaardigheden behoudt. In lijn met de principes van open wetenschap, zullen we zowel de trainingsdata als de modelgewichten openbaar beschikbaar stellen om verder onderzoek en ontwikkeling in de volgende generatie MLLMs te bevorderen.