SPHINX-X : Mise à l'échelle des données et des paramètres pour une famille de modèles de langage multi-modaux de grande taille
SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models
February 8, 2024
Auteurs: Peng Gao, Renrui Zhang, Chris Liu, Longtian Qiu, Siyuan Huang, Weifeng Lin, Shitian Zhao, Shijie Geng, Ziyi Lin, Peng Jin, Kaipeng Zhang, Wenqi Shao, Chao Xu, Conghui He, Junjun He, Hao Shao, Pan Lu, Hongsheng Li, Yu Qiao
cs.AI
Résumé
Nous proposons SPHINX-X, une série étendue de Modèles de Langage Multimodaux (MLLM) développée sur la base de SPHINX. Pour améliorer l’architecture et l’efficacité de l’entraînement, nous modifions le cadre de SPHINX en supprimant les encodeurs visuels redondants, en contournant les sous-images entièrement remplies avec des tokens de saut, et en simplifiant l’entraînement multi-étapes en un paradigme tout-en-un en une seule étape. Pour libérer pleinement le potentiel des MLLM, nous assemblons un ensemble de données multidomaines et multimodales complet, couvrant des ressources publiquement disponibles dans les domaines du langage, de la vision et des tâches vision-langage. Nous enrichissons davantage cette collection avec nos ensembles de données OCR intensifs et Set-of-Mark, étendant ainsi la diversité et la généralité. En entraînant sur différents modèles de langage de base, notamment TinyLlama1.1B, InternLM2-7B, LLaMA2-13B et Mixtral8x7B, nous obtenons un spectre de MLLM variant en taille de paramètres et en capacités multilingues. Un benchmarking complet révèle une forte corrélation entre la performance multimodale et les échelles de données et de paramètres. Le code et les modèles sont disponibles à l’adresse suivante : https://github.com/Alpha-VLLM/LLaMA2-Accessory.
English
We propose SPHINX-X, an extensive Multimodality Large Language Model (MLLM)
series developed upon SPHINX. To improve the architecture and training
efficiency, we modify the SPHINX framework by removing redundant visual
encoders, bypassing fully-padded sub-images with skip tokens, and simplifying
multi-stage training into a one-stage all-in-one paradigm. To fully unleash the
potential of MLLMs, we assemble a comprehensive multi-domain and multimodal
dataset covering publicly available resources in language, vision, and
vision-language tasks. We further enrich this collection with our curated OCR
intensive and Set-of-Mark datasets, extending the diversity and generality. By
training over different base LLMs including TinyLlama1.1B, InternLM2-7B,
LLaMA2-13B, and Mixtral8x7B, we obtain a spectrum of MLLMs that vary in
parameter size and multilingual capabilities. Comprehensive benchmarking
reveals a strong correlation between the multi-modal performance with the data
and parameter scales. Code and models are released at
https://github.com/Alpha-VLLM/LLaMA2-Accessory