InternVL3: Esplorazione di Metodologie Avanzate di Addestramento e Strategie in Fase di Test per Modelli Multimodali Open-SourceInternVL3: Exploring Advanced Training and Test-Time Recipes for
Open-Source Multimodal Models
Presentiamo InternVL3, un significativo progresso nella serie InternVL che introduce un paradigma nativo di pre-addestramento multimodale. Piuttosto che adattare un modello linguistico di grandi dimensioni (LLM) unicamente testuale in un modello linguistico multimodale di grandi dimensioni (MLLM) che supporti input visivi, InternVL3 acquisisce congiuntamente capacità multimodali e linguistiche sia da dati multimodali diversificati che da corpora di testo puro durante una singola fase di pre-addestramento. Questo paradigma di formazione unificato affronta efficacemente le complessità e le sfide di allineamento comunemente riscontrate nelle pipeline di addestramento post-hoc convenzionali per MLLM. Per migliorare ulteriormente le prestazioni e la scalabilità, InternVL3 incorpora una codifica variabile della posizione visiva (V2PE) per supportare contesti multimodali estesi, utilizza tecniche avanzate di post-addestramento come la messa a punto supervisionata (SFT) e l'ottimizzazione mista delle preferenze (MPO), e adotta strategie di scalabilità al momento del test insieme a un'infrastruttura di addestramento ottimizzata. Valutazioni empiriche estensive dimostrano che InternVL3 offre prestazioni superiori in un'ampia gamma di attività multimodali. In particolare, InternVL3-78B raggiunge un punteggio di 72,2 sul benchmark MMMU, stabilendo un nuovo stato dell'arte tra gli MLLM open-source. Le sue capacità rimangono altamente competitive rispetto ai principali modelli proprietari, tra cui ChatGPT-4o, Claude 3.5 Sonnet e Gemini 2.5 Pro, mantenendo anche una forte competenza linguistica pura. In linea con i principi della scienza aperta, renderemo pubblicamente disponibili sia i dati di addestramento che i pesi del modello per favorire ulteriori ricerche e sviluppi nei MLLM di prossima generazione.