Espandere i Limiti delle Prestazioni dei Modelli Multimodali Open-Source con Scalabilità del Modello, dei Dati e del Tempo di Test.Expanding Performance Boundaries of Open-Source Multimodal Models with
Model, Data, and Test-Time Scaling
Presentiamo InternVL 2.5, un avanzato modello di linguaggio multimodale di grandi dimensioni (MLLM) che si basa su InternVL 2.0, mantenendo la sua architettura modello di base e introducendo significativi miglioramenti nelle strategie di addestramento e test, nonché nella qualità dei dati. In questo lavoro, approfondiamo il rapporto tra la scalabilità del modello e le prestazioni, esplorando sistematicamente le tendenze delle prestazioni negli encoder di visione, nei modelli di linguaggio, nelle dimensioni dei dataset e nelle configurazioni di test. Attraverso valutazioni approfondite su una vasta gamma di benchmark, inclusi il ragionamento multidisciplinare, la comprensione dei documenti, la comprensione multi-immagine/video, la comprensione del mondo reale, la rilevazione dell'allucinazione multimodale, l'ancoraggio visivo, le capacità multilingue e il puro trattamento del linguaggio, InternVL 2.5 mostra prestazioni competitive, competendo con i principali modelli commerciali come GPT-4o e Claude-3.5-Sonnet. In particolare, il nostro modello è il primo MLLM open-source a superare il 70% nel benchmark MMMU, ottenendo un miglioramento di 3,7 punti attraverso il ragionamento Chain-of-Thought (CoT) e mostrando un forte potenziale per la scalabilità nel test. Speriamo che questo modello contribuisca alla comunità open-source stabilendo nuovi standard per lo sviluppo e l'applicazione di sistemi AI multimodali. Per una dimostrazione di HuggingFace, vedere https://huggingface.co/spaces/OpenGVLab/InternVL