SPHINX: La Miscelazione Congiunta di Pesi, Compiti e Incorporamenti Visivi per Modelli Linguistici Multimodali di Grande Scala

Abstract

Presentiamo SPHINX, un versatile modello linguistico multimodale di grandi dimensioni (MLLM) con una miscelazione congiunta di pesi del modello, attività di tuning e incorporamenti visivi. Innanzitutto, per un migliore allineamento visione-linguaggio, sblocchiamo il modello linguistico di grandi dimensioni (LLM) durante il pre-addestramento e introduciamo una strategia di miscelazione dei pesi tra LLM addestrati con dati reali e sintetici. Integrando direttamente i pesi provenienti da due domini, l'LLM miscelato può incorporare in modo efficiente una semantica diversificata con una robustezza favorevole. Successivamente, per abilitare capacità multipurpose, misceliamo una varietà di attività per il tuning congiunto delle istruzioni visive e progettiamo istruzioni specifiche per evitare conflitti tra le attività. Oltre al rispondere a domande visive di base, includiamo attività più impegnative come la comprensione a livello di regione, il grounding delle didascalie, il rilevamento del layout dei documenti e la stima della posa umana, contribuendo a un miglioramento reciproco in diversi scenari. Inoltre, proponiamo di estrarre incorporamenti visivi completi da varie architetture di rete, paradigmi di pre-addestramento e granularità delle informazioni, fornendo ai modelli linguistici rappresentazioni di immagini più robuste. Basandoci sulla nostra proposta di miscelazione congiunta, SPHINX mostra capacità superiori di comprensione multimodale in un'ampia gamma di applicazioni. Oltre a ciò, proponiamo ulteriormente una strategia efficiente mirata a catturare meglio gli aspetti finemente dettagliati delle immagini ad alta risoluzione. Con una miscelazione di diverse scale e sotto-immagini ad alta risoluzione, SPHINX raggiunge prestazioni eccezionali di analisi e ragionamento visivo sui benchmark di valutazione esistenti. Speriamo che il nostro lavoro possa gettare luce sull'esplorazione della miscelazione congiunta nella futura ricerca sugli MLLM. Il codice è rilasciato all'indirizzo https://github.com/Alpha-VLLM/LLaMA2-Accessory.

English

We present SPHINX, a versatile multi-modal large language model (MLLM) with a joint mixing of model weights, tuning tasks, and visual embeddings. First, for stronger vision-language alignment, we unfreeze the large language model (LLM) during pre-training, and introduce a weight mix strategy between LLMs trained by real-world and synthetic data. By directly integrating the weights from two domains, the mixed LLM can efficiently incorporate diverse semantics with favorable robustness. Then, to enable multi-purpose capabilities, we mix a variety of tasks for joint visual instruction tuning, and design task-specific instructions to avoid inter-task conflict. In addition to the basic visual question answering, we include more challenging tasks such as region-level understanding, caption grounding, document layout detection, and human pose estimation, contributing to mutual enhancement over different scenarios. Additionally, we propose to extract comprehensive visual embeddings from various network architectures, pre-training paradigms, and information granularity, providing language models with more robust image representations. Based on our proposed joint mixing, SPHINX exhibits superior multi-modal understanding capabilities on a wide range of applications. On top of this, we further propose an efficient strategy aiming to better capture fine-grained appearances of high-resolution images. With a mixing of different scales and high-resolution sub-images, SPHINX attains exceptional visual parsing and reasoning performance on existing evaluation benchmarks. We hope our work may cast a light on the exploration of joint mixing in future MLLM research. Code is released at https://github.com/Alpha-VLLM/LLaMA2-Accessory.

SPHINX: La Miscelazione Congiunta di Pesi, Compiti e Incorporamenti Visivi per Modelli Linguistici Multimodali di Grande Scala

SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for Multi-modal Large Language Models

Abstract

Support