SPHINX: Die gemeinsame Kombination von Gewichten, Aufgaben und visuellen Einbettungen für multimodale Large Language Models

papers.abstract

Wir präsentieren SPHINX, ein vielseitiges multimodales großes Sprachmodell (MLLM) mit einer gemeinsamen Vermischung von Modellgewichten, Trainingsaufgaben und visuellen Einbettungen. Zunächst heben wir, um eine stärkere Vision-Sprache-Ausrichtung zu erreichen, das Einfrieren des großen Sprachmodells (LLM) während des Vortrainings auf und führen eine Gewichtsmischstrategie zwischen LLMs ein, die mit realen und synthetischen Daten trainiert wurden. Durch die direkte Integration der Gewichte aus beiden Domänen kann das gemischte LLM effizient diverse Semantiken mit vorteilhafter Robustheit einbinden. Um dann multifunktionale Fähigkeiten zu ermöglichen, mischen wir eine Vielzahl von Aufgaben für das gemeinsame visuelle Instruktions-Tuning und entwerfen aufgabenspezifische Anweisungen, um Konflikte zwischen den Aufgaben zu vermeiden. Neben der grundlegenden visuellen Fragebeantwortung schließen wir anspruchsvollere Aufgaben wie regionsbasiertes Verständnis, Beschriftungsverankerung, Dokumentlayout-Erkennung und menschliche Pose-Schätzung ein, was zur gegenseitigen Verbesserung in verschiedenen Szenarien beiträgt. Zusätzlich schlagen wir vor, umfassende visuelle Einbettungen aus verschiedenen Netzwerkarchitekturen, Vortrainingsparadigmen und Informationsgranularitäten zu extrahieren, wodurch Sprachmodelle mit robusteren Bildrepräsentationen versorgt werden. Basierend auf unserer vorgeschlagenen gemeinsamen Vermischung zeigt SPHINX überlegene multimodale Verständnisfähigkeiten in einer breiten Palette von Anwendungen. Darüber hinaus schlagen wir eine effiziente Strategie vor, die darauf abzielt, feinkörnige Erscheinungen von hochauflösenden Bildern besser zu erfassen. Durch die Mischung verschiedener Skalen und hochauflösender Teilbilder erreicht SPHINX eine außergewöhnliche visuelle Analyse- und Schlussfolgerungsleistung auf bestehenden Evaluierungs-Benchmarks. Wir hoffen, dass unsere Arbeit die Erforschung der gemeinsamen Vermischung in zukünftigen MLLM-Forschungen beleuchten kann. Der Code ist unter https://github.com/Alpha-VLLM/LLaMA2-Accessory veröffentlicht.

English

We present SPHINX, a versatile multi-modal large language model (MLLM) with a joint mixing of model weights, tuning tasks, and visual embeddings. First, for stronger vision-language alignment, we unfreeze the large language model (LLM) during pre-training, and introduce a weight mix strategy between LLMs trained by real-world and synthetic data. By directly integrating the weights from two domains, the mixed LLM can efficiently incorporate diverse semantics with favorable robustness. Then, to enable multi-purpose capabilities, we mix a variety of tasks for joint visual instruction tuning, and design task-specific instructions to avoid inter-task conflict. In addition to the basic visual question answering, we include more challenging tasks such as region-level understanding, caption grounding, document layout detection, and human pose estimation, contributing to mutual enhancement over different scenarios. Additionally, we propose to extract comprehensive visual embeddings from various network architectures, pre-training paradigms, and information granularity, providing language models with more robust image representations. Based on our proposed joint mixing, SPHINX exhibits superior multi-modal understanding capabilities on a wide range of applications. On top of this, we further propose an efficient strategy aiming to better capture fine-grained appearances of high-resolution images. With a mixing of different scales and high-resolution sub-images, SPHINX attains exceptional visual parsing and reasoning performance on existing evaluation benchmarks. We hope our work may cast a light on the exploration of joint mixing in future MLLM research. Code is released at https://github.com/Alpha-VLLM/LLaMA2-Accessory.

SPHINX: Die gemeinsame Kombination von Gewichten, Aufgaben und visuellen Einbettungen für multimodale Large Language Models

SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for Multi-modal Large Language Models

papers.abstract

Support