SPHINX: Het Gecombineerde Samenvoegen van Gewichten, Taken en Visuele Embeddings voor Multi-modale Grote Taalmodellen
SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for Multi-modal Large Language Models
November 13, 2023
Auteurs: Ziyi Lin, Chris Liu, Renrui Zhang, Peng Gao, Longtian Qiu, Han Xiao, Han Qiu, Chen Lin, Wenqi Shao, Keqin Chen, Jiaming Han, Siyuan Huang, Yichi Zhang, Xuming He, Hongsheng Li, Yu Qiao
cs.AI
Samenvatting
We presenteren SPHINX, een veelzijdig multi-modale grote taalmodel (MLLM) met een gezamenlijke mix van modelgewichten, afstemmingstaken en visuele embeddings. Ten eerste, voor een sterkere visie-taalafstemming, ontgrendelen we het grote taalmodel (LLM) tijdens de pre-training en introduceren we een gewichtsmixstrategie tussen LLM's die getraind zijn met real-world en synthetische data. Door de gewichten uit de twee domeinen direct te integreren, kan het gemengde LLM efficiënt diverse semantiek incorporeren met gunstige robuustheid. Vervolgens, om multi-purpose mogelijkheden te bieden, mixen we een verscheidenheid aan taken voor gezamenlijke visuele instructieafstemming en ontwerpen we taakspecifieke instructies om inter-task conflicten te voorkomen. Naast de basis visuele vraagbeantwoording, nemen we meer uitdagende taken op zoals regio-niveau begrip, caption grounding, documentlay-outdetectie en menselijke pose-schatting, wat bijdraagt aan wederzijdse verbetering in verschillende scenario's. Daarnaast stellen we voor om uitgebreide visuele embeddings te extraheren uit verschillende netwerkarchitecturen, pre-training paradigma's en informatiegranulariteit, wat taalmodellen voorziet van robuustere beeldrepresentaties. Op basis van onze voorgestelde gezamenlijke mix, vertoont SPHINX superieure multi-modale begripscapaciteiten in een breed scala aan toepassingen. Bovendien stellen we een efficiënte strategie voor die gericht is op het beter vastleggen van fijnmazige verschijningen van hoge-resolutie afbeeldingen. Met een mix van verschillende schalen en hoge-resolutie sub-afbeeldingen, bereikt SPHINX uitzonderlijke visuele parsing en redeneerprestaties op bestaande evaluatiebenchmarks. We hopen dat ons werk een licht kan werpen op de verkenning van gezamenlijke mixen in toekomstig MLLM-onderzoek. Code is vrijgegeven op https://github.com/Alpha-VLLM/LLaMA2-Accessory.
English
We present SPHINX, a versatile multi-modal large language model (MLLM) with a
joint mixing of model weights, tuning tasks, and visual embeddings. First, for
stronger vision-language alignment, we unfreeze the large language model (LLM)
during pre-training, and introduce a weight mix strategy between LLMs trained
by real-world and synthetic data. By directly integrating the weights from two
domains, the mixed LLM can efficiently incorporate diverse semantics with
favorable robustness. Then, to enable multi-purpose capabilities, we mix a
variety of tasks for joint visual instruction tuning, and design task-specific
instructions to avoid inter-task conflict. In addition to the basic visual
question answering, we include more challenging tasks such as region-level
understanding, caption grounding, document layout detection, and human pose
estimation, contributing to mutual enhancement over different scenarios.
Additionally, we propose to extract comprehensive visual embeddings from
various network architectures, pre-training paradigms, and information
granularity, providing language models with more robust image representations.
Based on our proposed joint mixing, SPHINX exhibits superior multi-modal
understanding capabilities on a wide range of applications. On top of this, we
further propose an efficient strategy aiming to better capture fine-grained
appearances of high-resolution images. With a mixing of different scales and
high-resolution sub-images, SPHINX attains exceptional visual parsing and
reasoning performance on existing evaluation benchmarks. We hope our work may
cast a light on the exploration of joint mixing in future MLLM research. Code
is released at https://github.com/Alpha-VLLM/LLaMA2-Accessory.