DeepSpeed-VisualChat: Многораундовый многоизображенческий чередующийся чат с использованием многомодального причинного внимания
DeepSpeed-VisualChat: Multi-Round Multi-Image Interleave Chat via Multi-Modal Causal Attention
September 25, 2023
Авторы: Zhewei Yao, Xiaoxia Wu, Conglong Li, Minjia Zhang, Heyang Qi, Olatunji Ruwase, Ammar Ahmad Awan, Samyam Rajbhandari, Yuxiong He
cs.AI
Аннотация
Большинство существующих мультимодальных моделей, ограниченные своей неспособностью эффективно обрабатывать чередующиеся изображения и текстовые данные в диалогах с несколькими изображениями и множеством раундов, сталкиваются с существенными ограничениями в распределении ресурсов для обучения и доступности данных, что влияет на их адаптивность и масштабируемость в различных областях взаимодействия. Для решения этой проблемы мы представляем фреймворк DeepSpeed-VisualChat, разработанный для оптимизации больших языковых моделей (LLM) путем интеграции мультимодальных возможностей, с акцентом на повышение эффективности больших моделей зрения и языка в обработке чередующихся входных данных. Наш фреймворк выделяется (1) открытой поддержкой диалогов с несколькими раундами и изображениями, (2) введением инновационного механизма мультимодального каузального внимания и (3) использованием техник смешивания данных на существующих наборах данных для обеспечения плавного взаимодействия в многораундовых диалогах с несколькими изображениями. По сравнению с существующими фреймворками, DeepSpeed-VisualChat демонстрирует превосходную масштабируемость до размера языковой модели с 70 миллиардами параметров, что представляет собой значительный прогресс в области мультимодальных языковых моделей и закладывает прочную основу для будущих исследований.
English
Most of the existing multi-modal models, hindered by their incapacity to
adeptly manage interleaved image-and-text inputs in multi-image, multi-round
dialogues, face substantial constraints in resource allocation for training and
data accessibility, impacting their adaptability and scalability across varied
interaction realms. To address this, we present the DeepSpeed-VisualChat
framework, designed to optimize Large Language Models (LLMs) by incorporating
multi-modal capabilities, with a focus on enhancing the proficiency of Large
Vision and Language Models in handling interleaved inputs. Our framework is
notable for (1) its open-source support for multi-round and multi-image
dialogues, (2) introducing an innovative multi-modal causal attention
mechanism, and (3) utilizing data blending techniques on existing datasets to
assure seamless interactions in multi-round, multi-image conversations.
Compared to existing frameworks, DeepSpeed-VisualChat shows superior
scalability up to 70B parameter language model size, representing a significant
advancement in multi-modal language models and setting a solid foundation for
future explorations.