L'IA générative au-delà des LLM : Implications systémiques de la génération multimodale

Generative AI Beyond LLMs: System Implications of Multi-Modal Generation

December 22, 2023
Auteurs: Alicia Golden, Samuel Hsia, Fei Sun, Bilge Acun, Basil Hosmer, Yejin Lee, Zachary DeVito, Jeff Johnson, Gu-Yeon Wei, David Brooks, Carole-Jean Wu
cs.AI

Résumé

Alors que le développement des modèles d'IA générative à grande échelle évolue au-delà de la génération de texte (1D) pour inclure la génération d'images (2D) et de vidéos (3D), le traitement des informations spatiales et temporelles présente des défis uniques en termes de qualité, de performance et d'efficacité. Nous présentons le premier travail visant à comprendre ce nouvel espace de conception de systèmes pour les modèles de génération multimodale texte-à-image (TTI) et texte-à-vidéo (TTV). Les architectures de modèles actuelles se divisent en deux catégories : les modèles basés sur la diffusion et ceux basés sur les Transformers. Notre caractérisation systématique des performances sur une suite de huit modèles TTI/TTV représentatifs montre qu'après l'application de techniques d'optimisation de pointe telles que Flash Attention, les convolutions représentent jusqu'à 44 % du temps d'exécution pour les modèles TTI basés sur la diffusion, tandis que les couches linéaires consomment jusqu'à 49 % du temps d'exécution pour les modèles basés sur les Transformers. Nous observons également que les modèles TTI basés sur la diffusion ressemblent à l'étape de préremplissage de l'inférence des LLM et bénéficient d'une accélération de 1,1 à 2,5 fois supérieure grâce à Flash Attention par rapport aux modèles TTI basés sur les Transformers qui ressemblent à la phase de décodage. Étant donné que les optimisations conçues pour les LLM ne s'appliquent pas directement aux modèles TTI/TTV, nous devons effectuer une caractérisation approfondie de ces charges de travail pour identifier de nouvelles opportunités d'optimisation. Ce faisant, nous définissons la longueur de séquence dans le contexte des modèles TTI/TTV et observons que la longueur de séquence peut varier jusqu'à 4 fois dans l'inférence des modèles de diffusion. Nous observons également que les aspects temporels des charges de travail TTV posent des goulots d'étranglement uniques, avec l'attention temporelle représentant plus de 60 % du temps total d'attention. Globalement, notre caractérisation approfondie des performances des systèmes constitue une première étape cruciale vers la conception de systèmes efficaces et déployables pour les charges de travail TTI/TTV émergentes.
English
As the development of large-scale Generative AI models evolve beyond text (1D) generation to include image (2D) and video (3D) generation, processing spatial and temporal information presents unique challenges to quality, performance, and efficiency. We present the first work towards understanding this new system design space for multi-modal text-to-image (TTI) and text-to-video (TTV) generation models. Current model architecture designs are bifurcated into 2 categories: Diffusion- and Transformer-based models. Our systematic performance characterization on a suite of eight representative TTI/TTV models shows that after state-of-the-art optimization techniques such as Flash Attention are applied, Convolution accounts for up to 44% of execution time for Diffusion-based TTI models, while Linear layers consume up to 49% of execution time for Transformer-based models. We additionally observe that Diffusion-based TTI models resemble the Prefill stage of LLM inference, and benefit from 1.1-2.5x greater speedup from Flash Attention than Transformer-based TTI models that resemble the Decode phase. Since optimizations designed for LLMs do not map directly onto TTI/TTV models, we must conduct a thorough characterization of these workloads to gain insights for new optimization opportunities. In doing so, we define sequence length in the context of TTI/TTV models and observe sequence length can vary up to 4x in Diffusion model inference. We additionally observe temporal aspects of TTV workloads pose unique system bottlenecks, with Temporal Attention accounting for over 60% of total Attention time. Overall, our in-depth system performance characterization is a critical first step towards designing efficient and deployable systems for emerging TTI/TTV workloads.

Summary

AI-Generated Summary

PDF71December 15, 2024