DeepSpeed-VisualChat: マルチモーダル因果アテンションによる マルチラウンド・マルチイメージ交互チャット
DeepSpeed-VisualChat: Multi-Round Multi-Image Interleave Chat via Multi-Modal Causal Attention
September 25, 2023
著者: Zhewei Yao, Xiaoxia Wu, Conglong Li, Minjia Zhang, Heyang Qi, Olatunji Ruwase, Ammar Ahmad Awan, Samyam Rajbhandari, Yuxiong He
cs.AI
要旨
既存のマルチモーダルモデルの多くは、複数画像を含む多ラウンド対話における画像とテキストの交互入力を適切に処理する能力の欠如に阻まれ、トレーニングのリソース配分やデータアクセシビリティに大きな制約を抱えています。これにより、さまざまなインタラクション領域における適応性とスケーラビリティが影響を受けています。この課題に対処するため、我々はDeepSpeed-VisualChatフレームワークを提案します。このフレームワークは、大規模言語モデル(LLMs)を最適化し、特に大規模視覚と言語モデルが交互入力を処理する能力を向上させることに焦点を当てています。我々のフレームワークは、(1) 多ラウンドおよび複数画像対話のオープンソースサポート、(2) 革新的なマルチモーダル因果的注意メカニズムの導入、(3) 既存データセットに対するデータブレンディング技術の活用により、多ラウンド・複数画像会話におけるシームレスなインタラクションを保証する点で特筆されます。既存のフレームワークと比較して、DeepSpeed-VisualChatは70Bパラメータの言語モデルサイズまで優れたスケーラビリティを示し、マルチモーダル言語モデルにおける重要な進歩を表し、将来の探求のための堅固な基盤を築いています。
English
Most of the existing multi-modal models, hindered by their incapacity to
adeptly manage interleaved image-and-text inputs in multi-image, multi-round
dialogues, face substantial constraints in resource allocation for training and
data accessibility, impacting their adaptability and scalability across varied
interaction realms. To address this, we present the DeepSpeed-VisualChat
framework, designed to optimize Large Language Models (LLMs) by incorporating
multi-modal capabilities, with a focus on enhancing the proficiency of Large
Vision and Language Models in handling interleaved inputs. Our framework is
notable for (1) its open-source support for multi-round and multi-image
dialogues, (2) introducing an innovative multi-modal causal attention
mechanism, and (3) utilizing data blending techniques on existing datasets to
assure seamless interactions in multi-round, multi-image conversations.
Compared to existing frameworks, DeepSpeed-VisualChat shows superior
scalability up to 70B parameter language model size, representing a significant
advancement in multi-modal language models and setting a solid foundation for
future explorations.