ChatPaper.aiChatPaper

SPHINX : Le mélange conjoint des poids, des tâches et des embeddings visuels pour les modèles de langage multi-modaux de grande envergure

SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for Multi-modal Large Language Models

November 13, 2023
Auteurs: Ziyi Lin, Chris Liu, Renrui Zhang, Peng Gao, Longtian Qiu, Han Xiao, Han Qiu, Chen Lin, Wenqi Shao, Keqin Chen, Jiaming Han, Siyuan Huang, Yichi Zhang, Xuming He, Hongsheng Li, Yu Qiao
cs.AI

Résumé

Nous présentons SPHINX, un modèle de langage multimodal polyvalent (MLLM) qui combine de manière conjointe les poids du modèle, les tâches de réglage et les embeddings visuels. Tout d'abord, pour renforcer l'alignement vision-langage, nous déverrouillons le grand modèle de langage (LLM) pendant le pré-entraînement et introduisons une stratégie de mélange de poids entre des LLM entraînés sur des données réelles et synthétiques. En intégrant directement les poids des deux domaines, le LLM mixte peut incorporer efficacement des sémantiques variées avec une robustesse favorable. Ensuite, pour permettre des capacités polyvalentes, nous mélangeons une variété de tâches pour un réglage conjoint d'instructions visuelles, et concevons des instructions spécifiques à chaque tâche pour éviter les conflits inter-tâches. En plus de la réponse à des questions visuelles de base, nous incluons des tâches plus complexes telles que la compréhension au niveau des régions, l'ancrage de légendes, la détection de la disposition de documents et l'estimation de la pose humaine, contribuant à une amélioration mutuelle dans différents scénarios. De plus, nous proposons d'extraire des embeddings visuels complets à partir de diverses architectures de réseaux, paradigmes de pré-entraînement et granularités d'information, fournissant ainsi aux modèles de langage des représentations d'images plus robustes. Grâce à notre proposition de mélange conjoint, SPHINX démontre des capacités supérieures de compréhension multimodale dans un large éventail d'applications. Par ailleurs, nous proposons une stratégie efficace visant à mieux capturer les apparences fines des images haute résolution. Avec un mélange de différentes échelles et de sous-images haute résolution, SPHINX atteint des performances exceptionnelles en analyse visuelle et en raisonnement sur les benchmarks d'évaluation existants. Nous espérons que notre travail pourra éclairer l'exploration du mélange conjoint dans les futures recherches sur les MLLM. Le code est disponible à l'adresse suivante : https://github.com/Alpha-VLLM/LLaMA2-Accessory.
English
We present SPHINX, a versatile multi-modal large language model (MLLM) with a joint mixing of model weights, tuning tasks, and visual embeddings. First, for stronger vision-language alignment, we unfreeze the large language model (LLM) during pre-training, and introduce a weight mix strategy between LLMs trained by real-world and synthetic data. By directly integrating the weights from two domains, the mixed LLM can efficiently incorporate diverse semantics with favorable robustness. Then, to enable multi-purpose capabilities, we mix a variety of tasks for joint visual instruction tuning, and design task-specific instructions to avoid inter-task conflict. In addition to the basic visual question answering, we include more challenging tasks such as region-level understanding, caption grounding, document layout detection, and human pose estimation, contributing to mutual enhancement over different scenarios. Additionally, we propose to extract comprehensive visual embeddings from various network architectures, pre-training paradigms, and information granularity, providing language models with more robust image representations. Based on our proposed joint mixing, SPHINX exhibits superior multi-modal understanding capabilities on a wide range of applications. On top of this, we further propose an efficient strategy aiming to better capture fine-grained appearances of high-resolution images. With a mixing of different scales and high-resolution sub-images, SPHINX attains exceptional visual parsing and reasoning performance on existing evaluation benchmarks. We hope our work may cast a light on the exploration of joint mixing in future MLLM research. Code is released at https://github.com/Alpha-VLLM/LLaMA2-Accessory.
PDF150December 15, 2024