Generative KI jenseits von LLMs: Systemimplikationen der multimodalen Generierung
Generative AI Beyond LLMs: System Implications of Multi-Modal Generation
December 22, 2023
Autoren: Alicia Golden, Samuel Hsia, Fei Sun, Bilge Acun, Basil Hosmer, Yejin Lee, Zachary DeVito, Jeff Johnson, Gu-Yeon Wei, David Brooks, Carole-Jean Wu
cs.AI
Zusammenfassung
Mit der Weiterentwicklung großskaliger generativer KI-Modelle, die über die Textgenerierung (1D) hinausgehen und nun auch Bild- (2D) und Videogenerierung (3D) umfassen, stellt die Verarbeitung räumlicher und zeitlicher Informationen einzigartige Herausforderungen in Bezug auf Qualität, Leistung und Effizienz dar. Wir präsentieren die erste Arbeit, die sich mit dem Verständnis dieses neuen Systemdesignraums für multimodale Text-zu-Bild (TTI) und Text-zu-Video (TTV) Generierungsmodelle beschäftigt. Aktuelle Modellarchitekturen lassen sich in zwei Kategorien einteilen: Diffusions- und Transformer-basierte Modelle. Unsere systematische Leistungscharakterisierung einer Reihe von acht repräsentativen TTI/TTV-Modellen zeigt, dass nach der Anwendung modernster Optimierungstechniken wie Flash Attention die Faltung bis zu 44 % der Ausführungszeit für Diffusions-basierte TTI-Modelle ausmacht, während lineare Schichten bis zu 49 % der Ausführungszeit für Transformer-basierte Modelle verbrauchen. Zusätzlich beobachten wir, dass Diffusions-basierte TTI-Modelle der Prefill-Phase der LLM-Inferenz ähneln und von einem 1,1- bis 2,5-fachen größeren Geschwindigkeitsvorteil durch Flash Attention profitieren als Transformer-basierte TTI-Modelle, die der Decode-Phase ähneln. Da Optimierungen, die für LLMs entwickelt wurden, nicht direkt auf TTI/TTV-Modelle übertragbar sind, müssen wir eine gründliche Charakterisierung dieser Workloads durchführen, um Einblicke in neue Optimierungsmöglichkeiten zu gewinnen. Dabei definieren wir die Sequenzlänge im Kontext von TTI/TTV-Modellen und beobachten, dass die Sequenzlänge bei der Inferenz von Diffusionsmodellen um bis zu das 4-fache variieren kann. Zusätzlich stellen wir fest, dass zeitliche Aspekte von TTV-Workloads einzigartige Systemengpässe darstellen, wobei die zeitliche Aufmerksamkeit über 60 % der gesamten Aufmerksamkeitszeit ausmacht. Insgesamt ist unsere detaillierte Systemleistungscharakterisierung ein entscheidender erster Schritt zur Entwicklung effizienter und einsatzfähiger Systeme für aufkommende TTI/TTV-Workloads.
English
As the development of large-scale Generative AI models evolve beyond text
(1D) generation to include image (2D) and video (3D) generation, processing
spatial and temporal information presents unique challenges to quality,
performance, and efficiency. We present the first work towards understanding
this new system design space for multi-modal text-to-image (TTI) and
text-to-video (TTV) generation models. Current model architecture designs are
bifurcated into 2 categories: Diffusion- and Transformer-based models. Our
systematic performance characterization on a suite of eight representative
TTI/TTV models shows that after state-of-the-art optimization techniques such
as Flash Attention are applied, Convolution accounts for up to 44% of execution
time for Diffusion-based TTI models, while Linear layers consume up to 49% of
execution time for Transformer-based models. We additionally observe that
Diffusion-based TTI models resemble the Prefill stage of LLM inference, and
benefit from 1.1-2.5x greater speedup from Flash Attention than
Transformer-based TTI models that resemble the Decode phase. Since
optimizations designed for LLMs do not map directly onto TTI/TTV models, we
must conduct a thorough characterization of these workloads to gain insights
for new optimization opportunities. In doing so, we define sequence length in
the context of TTI/TTV models and observe sequence length can vary up to 4x in
Diffusion model inference. We additionally observe temporal aspects of TTV
workloads pose unique system bottlenecks, with Temporal Attention accounting
for over 60% of total Attention time. Overall, our in-depth system performance
characterization is a critical first step towards designing efficient and
deployable systems for emerging TTI/TTV workloads.Summary
AI-Generated Summary