ChatPaper.aiChatPaper

DeepSpeed-VisualChat: Chat Intercalado de Múltiplas Rodadas e Múltiplas Imagens via Atenção Causal Multimodal

DeepSpeed-VisualChat: Multi-Round Multi-Image Interleave Chat via Multi-Modal Causal Attention

September 25, 2023
Autores: Zhewei Yao, Xiaoxia Wu, Conglong Li, Minjia Zhang, Heyang Qi, Olatunji Ruwase, Ammar Ahmad Awan, Samyam Rajbhandari, Yuxiong He
cs.AI

Resumo

A maioria dos modelos multimodais existentes, limitados por sua incapacidade de gerenciar habilmente entradas intercaladas de imagem e texto em diálogos multi-imagem e multi-turno, enfrentam restrições substanciais na alocação de recursos para treinamento e acessibilidade de dados, impactando sua adaptabilidade e escalabilidade em diversos domínios de interação. Para resolver isso, apresentamos o framework DeepSpeed-VisualChat, projetado para otimizar Modelos de Linguagem de Grande Escala (LLMs) ao incorporar capacidades multimodais, com foco em aprimorar a proficiência de Modelos de Visão e Linguagem de Grande Escala no tratamento de entradas intercaladas. Nosso framework se destaca por (1) seu suporte de código aberto para diálogos multi-turno e multi-imagem, (2) a introdução de um mecanismo inovador de atenção causal multimodal, e (3) a utilização de técnicas de mesclagem de dados em conjuntos de dados existentes para garantir interações fluidas em conversas multi-turno e multi-imagem. Em comparação com frameworks existentes, o DeepSpeed-VisualChat demonstra escalabilidade superior até o tamanho de modelos de linguagem com 70 bilhões de parâmetros, representando um avanço significativo em modelos de linguagem multimodal e estabelecendo uma base sólida para explorações futuras.
English
Most of the existing multi-modal models, hindered by their incapacity to adeptly manage interleaved image-and-text inputs in multi-image, multi-round dialogues, face substantial constraints in resource allocation for training and data accessibility, impacting their adaptability and scalability across varied interaction realms. To address this, we present the DeepSpeed-VisualChat framework, designed to optimize Large Language Models (LLMs) by incorporating multi-modal capabilities, with a focus on enhancing the proficiency of Large Vision and Language Models in handling interleaved inputs. Our framework is notable for (1) its open-source support for multi-round and multi-image dialogues, (2) introducing an innovative multi-modal causal attention mechanism, and (3) utilizing data blending techniques on existing datasets to assure seamless interactions in multi-round, multi-image conversations. Compared to existing frameworks, DeepSpeed-VisualChat shows superior scalability up to 70B parameter language model size, representing a significant advancement in multi-modal language models and setting a solid foundation for future explorations.
PDF222February 8, 2026