SPHINX-X: Scalabilità di Dati e Parametri per una Famiglia di Modelli Linguistici Multimodali di Grandi Dimensioni

Abstract

Proponiamo SPHINX-X, un'estesa serie di Modelli Linguistici Multimodali di Grande Scala (MLLM) sviluppata su SPHINX. Per migliorare l'efficienza dell'architettura e dell'addestramento, modifichiamo il framework SPHINX rimuovendo gli encoder visivi ridondanti, bypassando le sotto-immagini completamente riempite con token di salto e semplificando l'addestramento multi-stadio in un paradigma all-in-one a singolo stadio. Per sfruttare appieno il potenziale degli MLLM, assembliamo un dataset multimodale e multi-dominio completo che copre risorse pubbliche disponibili in compiti linguistici, visivi e visivo-linguistici. Arricchiamo ulteriormente questa raccolta con i nostri dataset curati OCR-intensive e Set-of-Mark, estendendo la diversità e la generalità. Addestrando su diversi modelli linguistici di base, tra cui TinyLlama1.1B, InternLM2-7B, LLaMA2-13B e Mixtral8x7B, otteniamo uno spettro di MLLM che variano in dimensioni dei parametri e capacità multilingue. Un benchmarking completo rivela una forte correlazione tra le prestazioni multimodali e le scale di dati e parametri. Codice e modelli sono rilasciati su https://github.com/Alpha-VLLM/LLaMA2-Accessory.

English

We propose SPHINX-X, an extensive Multimodality Large Language Model (MLLM) series developed upon SPHINX. To improve the architecture and training efficiency, we modify the SPHINX framework by removing redundant visual encoders, bypassing fully-padded sub-images with skip tokens, and simplifying multi-stage training into a one-stage all-in-one paradigm. To fully unleash the potential of MLLMs, we assemble a comprehensive multi-domain and multimodal dataset covering publicly available resources in language, vision, and vision-language tasks. We further enrich this collection with our curated OCR intensive and Set-of-Mark datasets, extending the diversity and generality. By training over different base LLMs including TinyLlama1.1B, InternLM2-7B, LLaMA2-13B, and Mixtral8x7B, we obtain a spectrum of MLLMs that vary in parameter size and multilingual capabilities. Comprehensive benchmarking reveals a strong correlation between the multi-modal performance with the data and parameter scales. Code and models are released at https://github.com/Alpha-VLLM/LLaMA2-Accessory

SPHINX-X: Scalabilità di Dati e Parametri per una Famiglia di Modelli Linguistici Multimodali di Grandi Dimensioni

SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models

Abstract

Support