ChatPaper.aiChatPaper

SPHINX-X: Schaalvergroting van Data en Parameters voor een Familie van Multi-modale Grote Taalmodellen

SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models

February 8, 2024
Auteurs: Peng Gao, Renrui Zhang, Chris Liu, Longtian Qiu, Siyuan Huang, Weifeng Lin, Shitian Zhao, Shijie Geng, Ziyi Lin, Peng Jin, Kaipeng Zhang, Wenqi Shao, Chao Xu, Conghui He, Junjun He, Hao Shao, Pan Lu, Hongsheng Li, Yu Qiao
cs.AI

Samenvatting

Wij stellen SPHINX-X voor, een uitgebreide Multimodaliteit Grote Taalmodel (MLLM)-serie ontwikkeld op basis van SPHINX. Om de architectuur en trainings efficiëntie te verbeteren, passen we het SPHINX-framework aan door overbodige visuele encoders te verwijderen, volledig opgevulde subafbeeldingen over te slaan met skip-tokens, en de multi-fase training te vereenvoudigen tot een een-fase all-in-one paradigma. Om het volledige potentieel van MLLMs te benutten, stellen we een uitgebreide multi-domein en multimodale dataset samen die openbaar beschikbare bronnen omvat op het gebied van taal, visie en visie-taal taken. We verrijken deze collectie verder met onze samengestelde OCR-intensieve en Set-of-Mark datasets, waardoor de diversiteit en algemeenheid worden uitgebreid. Door te trainen op verschillende basis-LLMs, waaronder TinyLlama1.1B, InternLM2-7B, LLaMA2-13B en Mixtral8x7B, verkrijgen we een spectrum van MLLMs die variëren in parameter grootte en meertalige capaciteiten. Uitgebreide benchmarking onthult een sterke correlatie tussen de multimodale prestaties en de schaal van de data en parameters. Code en modellen zijn vrijgegeven op https://github.com/Alpha-VLLM/LLaMA2-Accessory.
English
We propose SPHINX-X, an extensive Multimodality Large Language Model (MLLM) series developed upon SPHINX. To improve the architecture and training efficiency, we modify the SPHINX framework by removing redundant visual encoders, bypassing fully-padded sub-images with skip tokens, and simplifying multi-stage training into a one-stage all-in-one paradigm. To fully unleash the potential of MLLMs, we assemble a comprehensive multi-domain and multimodal dataset covering publicly available resources in language, vision, and vision-language tasks. We further enrich this collection with our curated OCR intensive and Set-of-Mark datasets, extending the diversity and generality. By training over different base LLMs including TinyLlama1.1B, InternLM2-7B, LLaMA2-13B, and Mixtral8x7B, we obtain a spectrum of MLLMs that vary in parameter size and multilingual capabilities. Comprehensive benchmarking reveals a strong correlation between the multi-modal performance with the data and parameter scales. Code and models are released at https://github.com/Alpha-VLLM/LLaMA2-Accessory
PDF171December 15, 2024