DeepSpeed-VisualChat: Chat Intercalado de Múltiples Rondas e Imágenes mediante Atención Causal Multi-Modal
DeepSpeed-VisualChat: Multi-Round Multi-Image Interleave Chat via Multi-Modal Causal Attention
September 25, 2023
Autores: Zhewei Yao, Xiaoxia Wu, Conglong Li, Minjia Zhang, Heyang Qi, Olatunji Ruwase, Ammar Ahmad Awan, Samyam Rajbhandari, Yuxiong He
cs.AI
Resumen
La mayoría de los modelos multimodales existentes, limitados por su incapacidad para gestionar hábilmente entradas intercaladas de imagen y texto en diálogos multiimagen y multirronda, enfrentan restricciones sustanciales en la asignación de recursos para el entrenamiento y la accesibilidad de datos, lo que afecta su adaptabilidad y escalabilidad en diversos ámbitos de interacción. Para abordar esto, presentamos el marco DeepSpeed-VisualChat, diseñado para optimizar los Modelos de Lenguaje de Gran Escala (LLMs) mediante la incorporación de capacidades multimodales, con un enfoque en mejorar la competencia de los Modelos de Visión y Lenguaje de Gran Escala en el manejo de entradas intercaladas. Nuestro marco destaca por (1) su soporte de código abierto para diálogos multirronda y multiimagen, (2) la introducción de un innovador mecanismo de atención causal multimodal, y (3) el uso de técnicas de mezcla de datos en conjuntos de datos existentes para garantizar interacciones fluidas en conversaciones multirronda y multiimagen. En comparación con los marcos existentes, DeepSpeed-VisualChat muestra una escalabilidad superior hasta modelos de lenguaje de 70B parámetros, representando un avance significativo en los modelos de lenguaje multimodal y sentando una base sólida para futuras exploraciones.
English
Most of the existing multi-modal models, hindered by their incapacity to
adeptly manage interleaved image-and-text inputs in multi-image, multi-round
dialogues, face substantial constraints in resource allocation for training and
data accessibility, impacting their adaptability and scalability across varied
interaction realms. To address this, we present the DeepSpeed-VisualChat
framework, designed to optimize Large Language Models (LLMs) by incorporating
multi-modal capabilities, with a focus on enhancing the proficiency of Large
Vision and Language Models in handling interleaved inputs. Our framework is
notable for (1) its open-source support for multi-round and multi-image
dialogues, (2) introducing an innovative multi-modal causal attention
mechanism, and (3) utilizing data blending techniques on existing datasets to
assure seamless interactions in multi-round, multi-image conversations.
Compared to existing frameworks, DeepSpeed-VisualChat shows superior
scalability up to 70B parameter language model size, representing a significant
advancement in multi-modal language models and setting a solid foundation for
future explorations.