Generative AI oltre i LLM: Implicazioni sistemiche della generazione multimodale
Generative AI Beyond LLMs: System Implications of Multi-Modal Generation
December 22, 2023
Autori: Alicia Golden, Samuel Hsia, Fei Sun, Bilge Acun, Basil Hosmer, Yejin Lee, Zachary DeVito, Jeff Johnson, Gu-Yeon Wei, David Brooks, Carole-Jean Wu
cs.AI
Abstract
Mentre lo sviluppo di modelli di Generative AI su larga scala evolve oltre la generazione di testo (1D) per includere la generazione di immagini (2D) e video (3D), l'elaborazione di informazioni spaziali e temporali presenta sfide uniche in termini di qualità, prestazioni ed efficienza. Presentiamo il primo lavoro volto a comprendere questo nuovo spazio di progettazione di sistemi per modelli multi-modali di generazione da testo a immagine (TTI) e da testo a video (TTV). Gli attuali design delle architetture dei modelli si dividono in due categorie: modelli basati su Diffusion e modelli basati su Transformer. La nostra caratterizzazione sistematica delle prestazioni su una suite di otto modelli rappresentativi TTI/TTV mostra che, dopo l'applicazione di tecniche di ottimizzazione all'avanguardia come Flash Attention, la Convoluzione rappresenta fino al 44% del tempo di esecuzione per i modelli TTI basati su Diffusion, mentre i livelli Lineari consumano fino al 49% del tempo di esecuzione per i modelli basati su Transformer. Inoltre, osserviamo che i modelli TTI basati su Diffusion assomigliano alla fase di Prefill dell'inferenza di LLM e beneficiano di un aumento di velocità da 1,1 a 2,5 volte maggiore grazie a Flash Attention rispetto ai modelli TTI basati su Transformer che assomigliano alla fase di Decode. Poiché le ottimizzazioni progettate per gli LLM non si applicano direttamente ai modelli TTI/TTV, è necessario condurre una caratterizzazione approfondita di questi carichi di lavoro per ottenere intuizioni su nuove opportunità di ottimizzazione. In questo contesto, definiamo la lunghezza della sequenza nel contesto dei modelli TTI/TTV e osserviamo che la lunghezza della sequenza può variare fino a 4 volte nell'inferenza dei modelli Diffusion. Inoltre, osserviamo che gli aspetti temporali dei carichi di lavoro TTV presentano colli di bottiglia unici del sistema, con l'Attention Temporale che rappresenta oltre il 60% del tempo totale di Attention. Nel complesso, la nostra caratterizzazione approfondita delle prestazioni del sistema rappresenta un primo passo cruciale verso la progettazione di sistemi efficienti e distribuibili per i nuovi carichi di lavoro TTI/TTV.
English
As the development of large-scale Generative AI models evolve beyond text
(1D) generation to include image (2D) and video (3D) generation, processing
spatial and temporal information presents unique challenges to quality,
performance, and efficiency. We present the first work towards understanding
this new system design space for multi-modal text-to-image (TTI) and
text-to-video (TTV) generation models. Current model architecture designs are
bifurcated into 2 categories: Diffusion- and Transformer-based models. Our
systematic performance characterization on a suite of eight representative
TTI/TTV models shows that after state-of-the-art optimization techniques such
as Flash Attention are applied, Convolution accounts for up to 44% of execution
time for Diffusion-based TTI models, while Linear layers consume up to 49% of
execution time for Transformer-based models. We additionally observe that
Diffusion-based TTI models resemble the Prefill stage of LLM inference, and
benefit from 1.1-2.5x greater speedup from Flash Attention than
Transformer-based TTI models that resemble the Decode phase. Since
optimizations designed for LLMs do not map directly onto TTI/TTV models, we
must conduct a thorough characterization of these workloads to gain insights
for new optimization opportunities. In doing so, we define sequence length in
the context of TTI/TTV models and observe sequence length can vary up to 4x in
Diffusion model inference. We additionally observe temporal aspects of TTV
workloads pose unique system bottlenecks, with Temporal Attention accounting
for over 60% of total Attention time. Overall, our in-depth system performance
characterization is a critical first step towards designing efficient and
deployable systems for emerging TTI/TTV workloads.