ChatPaper.aiChatPaper

DeepSpeed-VisualChat: Mehrrunden-Mehrbild-Interleaved-Chat mittels Multi-Modaler Kausaler Aufmerksamkeit

DeepSpeed-VisualChat: Multi-Round Multi-Image Interleave Chat via Multi-Modal Causal Attention

September 25, 2023
Autoren: Zhewei Yao, Xiaoxia Wu, Conglong Li, Minjia Zhang, Heyang Qi, Olatunji Ruwase, Ammar Ahmad Awan, Samyam Rajbhandari, Yuxiong He
cs.AI

Zusammenfassung

Die meisten bestehenden multimodalen Modelle, die durch ihre Unfähigkeit behindert werden, verschachtelte Bild- und Texteingaben in mehrbildlichen, mehrrundigen Dialogen geschickt zu verarbeiten, stehen erheblichen Einschränkungen bei der Ressourcenallokation für das Training und der Datenzugänglichkeit gegenüber, was ihre Anpassungsfähigkeit und Skalierbarkeit über verschiedene Interaktionsbereiche hinweg beeinträchtigt. Um dies zu adressieren, präsentieren wir das DeepSpeed-VisualChat-Framework, das darauf ausgelegt ist, Large Language Models (LLMs) durch die Integration multimodaler Fähigkeiten zu optimieren, mit einem besonderen Fokus auf die Verbesserung der Kompetenz von Large Vision and Language Models bei der Handhabung verschachtelter Eingaben. Unser Framework zeichnet sich durch (1) seine Open-Source-Unterstützung für mehrrundige und mehrbildliche Dialoge, (2) die Einführung eines innovativen multimodalen kausalen Aufmerksamkeitsmechanismus und (3) die Nutzung von Datenmischungstechniken auf bestehenden Datensätzen aus, um nahtlose Interaktionen in mehrrundigen, mehrbildlichen Gesprächen zu gewährleisten. Im Vergleich zu bestehenden Frameworks zeigt DeepSpeed-VisualChat eine überlegene Skalierbarkeit bis zu einer Modellgröße von 70B Parametern, was einen bedeutenden Fortschritt in multimodalen Sprachmodellen darstellt und eine solide Grundlage für zukünftige Erkundungen schafft.
English
Most of the existing multi-modal models, hindered by their incapacity to adeptly manage interleaved image-and-text inputs in multi-image, multi-round dialogues, face substantial constraints in resource allocation for training and data accessibility, impacting their adaptability and scalability across varied interaction realms. To address this, we present the DeepSpeed-VisualChat framework, designed to optimize Large Language Models (LLMs) by incorporating multi-modal capabilities, with a focus on enhancing the proficiency of Large Vision and Language Models in handling interleaved inputs. Our framework is notable for (1) its open-source support for multi-round and multi-image dialogues, (2) introducing an innovative multi-modal causal attention mechanism, and (3) utilizing data blending techniques on existing datasets to assure seamless interactions in multi-round, multi-image conversations. Compared to existing frameworks, DeepSpeed-VisualChat shows superior scalability up to 70B parameter language model size, representing a significant advancement in multi-modal language models and setting a solid foundation for future explorations.
PDF222December 15, 2024