InternVL3:探索開源多模態模型的高階訓練與測試時優化方案InternVL3: Exploring Advanced Training and Test-Time Recipes for
Open-Source Multimodal Models
我們推出InternVL3,這是InternVL系列中的一項重大進展,其特點在於原生多模態預訓練範式。與其將僅限於文本的大型語言模型(LLM)改造成支持視覺輸入的多模態大型語言模型(MLLM),InternVL3在單一預訓練階段中,從多樣化的多模態數據和純文本語料庫中共同獲取多模態與語言能力。這一統一的訓練範式有效解決了傳統MLLM後續訓練管道中常見的複雜性和對齊挑戰。為了進一步提升性能和可擴展性,InternVL3採用了可變視覺位置編碼(V2PE)以支持擴展的多模態上下文,應用如監督微調(SFT)和混合偏好優化(MPO)等先進的後訓練技術,並採用了測試時縮放策略及優化的訓練基礎設施。廣泛的實證評估表明,InternVL3在多種多模態任務上均展現出卓越性能。特別是,InternVL3-78B在MMMU基準測試中獲得72.2分,創下了開源MLLM的新紀錄。其能力與領先的專有模型,包括ChatGPT-4o、Claude 3.5 Sonnet和Gemini 2.5 Pro,保持高度競爭力,同時也維持了強大的純語言能力。秉持開放科學原則,我們將公開訓練數據和模型權重,以促進下一代MLLM的進一步研究與開發。