ChatPaper.aiChatPaper

Generatieve AI voorbij LLM's: Systeemimplicaties van Multi-Modale Generatie

Generative AI Beyond LLMs: System Implications of Multi-Modal Generation

December 22, 2023
Auteurs: Alicia Golden, Samuel Hsia, Fei Sun, Bilge Acun, Basil Hosmer, Yejin Lee, Zachary DeVito, Jeff Johnson, Gu-Yeon Wei, David Brooks, Carole-Jean Wu
cs.AI

Samenvatting

Naarmate de ontwikkeling van grootschalige generatieve AI-modellen zich uitbreidt voorbij tekstgeneratie (1D) naar het omvatten van beeld- (2D) en videogeneratie (3D), brengt de verwerking van ruimtelijke en temporele informatie unieke uitdagingen met zich mee op het gebied van kwaliteit, prestaties en efficiëntie. Wij presenteren het eerste werk dat gericht is op het begrijpen van deze nieuwe systeemontwerpruimte voor multimodale tekst-naar-beeld (TTI) en tekst-naar-video (TTV) generatiemodellen. Huidige modelarchitectuurontwerpen zijn verdeeld in twee categorieën: op diffusie gebaseerde en op transformers gebaseerde modellen. Onze systematische prestatiekarakterisering van een reeks van acht representatieve TTI/TTV-modellen toont aan dat, na toepassing van state-of-the-art optimalisatietechnieken zoals Flash Attention, convolutie tot 44% van de uitvoeringstijd in beslag neemt voor op diffusie gebaseerde TTI-modellen, terwijl lineaire lagen tot 49% van de uitvoeringstijd verbruiken voor op transformers gebaseerde modellen. Daarnaast observeren we dat op diffusie gebaseerde TTI-modellen lijken op de Prefill-fase van LLM-inferentie, en profiteren van een 1,1-2,5x grotere snelheidswinst door Flash Attention dan op transformers gebaseerde TTI-modellen die lijken op de Decode-fase. Omdat optimalisaties die zijn ontworpen voor LLM's niet direct van toepassing zijn op TTI/TTV-modellen, moeten we een grondige karakterisering van deze workloads uitvoeren om inzichten te verkrijgen voor nieuwe optimalisatiemogelijkheden. Hierbij definiëren we sequentielengte in de context van TTI/TTV-modellen en observeren we dat de sequentielengte tot 4x kan variëren tijdens diffusiemodelinferentie. Daarnaast observeren we dat temporele aspecten van TTV-workloads unieke systeemknelpunten vormen, waarbij temporele aandacht meer dan 60% van de totale aandachtstijd in beslag neemt. Over het algemeen is onze diepgaande systeemprestatiekarakterisering een cruciale eerste stap naar het ontwerpen van efficiënte en inzetbare systemen voor opkomende TTI/TTV-workloads.
English
As the development of large-scale Generative AI models evolve beyond text (1D) generation to include image (2D) and video (3D) generation, processing spatial and temporal information presents unique challenges to quality, performance, and efficiency. We present the first work towards understanding this new system design space for multi-modal text-to-image (TTI) and text-to-video (TTV) generation models. Current model architecture designs are bifurcated into 2 categories: Diffusion- and Transformer-based models. Our systematic performance characterization on a suite of eight representative TTI/TTV models shows that after state-of-the-art optimization techniques such as Flash Attention are applied, Convolution accounts for up to 44% of execution time for Diffusion-based TTI models, while Linear layers consume up to 49% of execution time for Transformer-based models. We additionally observe that Diffusion-based TTI models resemble the Prefill stage of LLM inference, and benefit from 1.1-2.5x greater speedup from Flash Attention than Transformer-based TTI models that resemble the Decode phase. Since optimizations designed for LLMs do not map directly onto TTI/TTV models, we must conduct a thorough characterization of these workloads to gain insights for new optimization opportunities. In doing so, we define sequence length in the context of TTI/TTV models and observe sequence length can vary up to 4x in Diffusion model inference. We additionally observe temporal aspects of TTV workloads pose unique system bottlenecks, with Temporal Attention accounting for over 60% of total Attention time. Overall, our in-depth system performance characterization is a critical first step towards designing efficient and deployable systems for emerging TTI/TTV workloads.
PDF71February 8, 2026