DeepSpeed-VisualChat: Chat Multi-Round e Multi-Immagine Intervallato tramite Attenzione Causale Multi-Modale

Abstract

La maggior parte dei modelli multi-modali esistenti, ostacolati dalla loro incapacità di gestire con destrezza input intercalati di immagini e testo in dialoghi multi-immagine e multi-turno, affrontano notevoli limitazioni nell'allocazione delle risorse per l'addestramento e nell'accessibilità dei dati, influenzando la loro adattabilità e scalabilità in vari ambiti di interazione. Per affrontare questo problema, presentiamo il framework DeepSpeed-VisualChat, progettato per ottimizzare i Large Language Models (LLMs) incorporando capacità multi-modali, con un focus sul miglioramento della competenza dei Large Vision and Language Models nella gestione di input intercalati. Il nostro framework si distingue per (1) il supporto open-source per dialoghi multi-turno e multi-immagine, (2) l'introduzione di un innovativo meccanismo di attenzione causale multi-modale, e (3) l'utilizzo di tecniche di miscelazione dei dati su dataset esistenti per garantire interazioni fluide in conversazioni multi-turno e multi-immagine. Rispetto ai framework esistenti, DeepSpeed-VisualChat dimostra una scalabilità superiore fino a dimensioni di modelli linguistici con 70 miliardi di parametri, rappresentando un significativo progresso nei modelli linguistici multi-modali e gettando una solida base per future esplorazioni.

English

Most of the existing multi-modal models, hindered by their incapacity to adeptly manage interleaved image-and-text inputs in multi-image, multi-round dialogues, face substantial constraints in resource allocation for training and data accessibility, impacting their adaptability and scalability across varied interaction realms. To address this, we present the DeepSpeed-VisualChat framework, designed to optimize Large Language Models (LLMs) by incorporating multi-modal capabilities, with a focus on enhancing the proficiency of Large Vision and Language Models in handling interleaved inputs. Our framework is notable for (1) its open-source support for multi-round and multi-image dialogues, (2) introducing an innovative multi-modal causal attention mechanism, and (3) utilizing data blending techniques on existing datasets to assure seamless interactions in multi-round, multi-image conversations. Compared to existing frameworks, DeepSpeed-VisualChat shows superior scalability up to 70B parameter language model size, representing a significant advancement in multi-modal language models and setting a solid foundation for future explorations.

DeepSpeed-VisualChat: Chat Multi-Round e Multi-Immagine Intervallato tramite Attenzione Causale Multi-Modale

DeepSpeed-VisualChat: Multi-Round Multi-Image Interleave Chat via Multi-Modal Causal Attention

Abstract

Support