SPHINX: Die gemeinsame Kombination von Gewichten, Aufgaben und visuellen Einbettungen für multimodale Large Language Models
SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for Multi-modal Large Language Models
November 13, 2023
Autoren: Ziyi Lin, Chris Liu, Renrui Zhang, Peng Gao, Longtian Qiu, Han Xiao, Han Qiu, Chen Lin, Wenqi Shao, Keqin Chen, Jiaming Han, Siyuan Huang, Yichi Zhang, Xuming He, Hongsheng Li, Yu Qiao
cs.AI
Zusammenfassung
Wir präsentieren SPHINX, ein vielseitiges multimodales großes Sprachmodell (MLLM) mit einer gemeinsamen Vermischung von Modellgewichten, Trainingsaufgaben und visuellen Einbettungen. Zunächst heben wir, um eine stärkere Vision-Sprache-Ausrichtung zu erreichen, das Einfrieren des großen Sprachmodells (LLM) während des Vortrainings auf und führen eine Gewichtsmischstrategie zwischen LLMs ein, die mit realen und synthetischen Daten trainiert wurden. Durch die direkte Integration der Gewichte aus beiden Domänen kann das gemischte LLM effizient diverse Semantiken mit vorteilhafter Robustheit einbinden. Um dann multifunktionale Fähigkeiten zu ermöglichen, mischen wir eine Vielzahl von Aufgaben für das gemeinsame visuelle Instruktions-Tuning und entwerfen aufgabenspezifische Anweisungen, um Konflikte zwischen den Aufgaben zu vermeiden. Neben der grundlegenden visuellen Fragebeantwortung schließen wir anspruchsvollere Aufgaben wie regionsbasiertes Verständnis, Beschriftungsverankerung, Dokumentlayout-Erkennung und menschliche Pose-Schätzung ein, was zur gegenseitigen Verbesserung in verschiedenen Szenarien beiträgt. Zusätzlich schlagen wir vor, umfassende visuelle Einbettungen aus verschiedenen Netzwerkarchitekturen, Vortrainingsparadigmen und Informationsgranularitäten zu extrahieren, wodurch Sprachmodelle mit robusteren Bildrepräsentationen versorgt werden. Basierend auf unserer vorgeschlagenen gemeinsamen Vermischung zeigt SPHINX überlegene multimodale Verständnisfähigkeiten in einer breiten Palette von Anwendungen. Darüber hinaus schlagen wir eine effiziente Strategie vor, die darauf abzielt, feinkörnige Erscheinungen von hochauflösenden Bildern besser zu erfassen. Durch die Mischung verschiedener Skalen und hochauflösender Teilbilder erreicht SPHINX eine außergewöhnliche visuelle Analyse- und Schlussfolgerungsleistung auf bestehenden Evaluierungs-Benchmarks. Wir hoffen, dass unsere Arbeit die Erforschung der gemeinsamen Vermischung in zukünftigen MLLM-Forschungen beleuchten kann. Der Code ist unter https://github.com/Alpha-VLLM/LLaMA2-Accessory veröffentlicht.
English
We present SPHINX, a versatile multi-modal large language model (MLLM) with a
joint mixing of model weights, tuning tasks, and visual embeddings. First, for
stronger vision-language alignment, we unfreeze the large language model (LLM)
during pre-training, and introduce a weight mix strategy between LLMs trained
by real-world and synthetic data. By directly integrating the weights from two
domains, the mixed LLM can efficiently incorporate diverse semantics with
favorable robustness. Then, to enable multi-purpose capabilities, we mix a
variety of tasks for joint visual instruction tuning, and design task-specific
instructions to avoid inter-task conflict. In addition to the basic visual
question answering, we include more challenging tasks such as region-level
understanding, caption grounding, document layout detection, and human pose
estimation, contributing to mutual enhancement over different scenarios.
Additionally, we propose to extract comprehensive visual embeddings from
various network architectures, pre-training paradigms, and information
granularity, providing language models with more robust image representations.
Based on our proposed joint mixing, SPHINX exhibits superior multi-modal
understanding capabilities on a wide range of applications. On top of this, we
further propose an efficient strategy aiming to better capture fine-grained
appearances of high-resolution images. With a mixing of different scales and
high-resolution sub-images, SPHINX attains exceptional visual parsing and
reasoning performance on existing evaluation benchmarks. We hope our work may
cast a light on the exploration of joint mixing in future MLLM research. Code
is released at https://github.com/Alpha-VLLM/LLaMA2-Accessory.