IA Generativa Más Allá de los LLM: Implicaciones Sistémicas de la Generación Multimodal
Generative AI Beyond LLMs: System Implications of Multi-Modal Generation
December 22, 2023
Autores: Alicia Golden, Samuel Hsia, Fei Sun, Bilge Acun, Basil Hosmer, Yejin Lee, Zachary DeVito, Jeff Johnson, Gu-Yeon Wei, David Brooks, Carole-Jean Wu
cs.AI
Resumen
A medida que el desarrollo de modelos de IA Generativa a gran escala evoluciona más allá de la generación de texto (1D) para incluir la generación de imágenes (2D) y videos (3D), el procesamiento de información espacial y temporal presenta desafíos únicos en cuanto a calidad, rendimiento y eficiencia. Presentamos el primer trabajo hacia la comprensión de este nuevo espacio de diseño de sistemas para modelos multimodales de texto a imagen (TTI) y texto a video (TTV). Los diseños actuales de arquitecturas de modelos se bifurcan en dos categorías: modelos basados en Difusión y modelos basados en Transformers. Nuestra caracterización sistemática del rendimiento en un conjunto de ocho modelos representativos de TTI/TTV muestra que, después de aplicar técnicas de optimización de vanguardia como Flash Attention, las convoluciones representan hasta el 44% del tiempo de ejecución en modelos TTI basados en Difusión, mientras que las capas lineales consumen hasta el 49% del tiempo de ejecución en modelos basados en Transformers. Además, observamos que los modelos TTI basados en Difusión se asemejan a la etapa de Prellenado en la inferencia de modelos de lenguaje grandes (LLM) y se benefician de una aceleración de 1.1 a 2.5 veces mayor con Flash Attention en comparación con los modelos TTI basados en Transformers, que se asemejan a la fase de Decodificación. Dado que las optimizaciones diseñadas para LLM no se aplican directamente a los modelos TTI/TTV, es necesario realizar una caracterización exhaustiva de estas cargas de trabajo para obtener ideas sobre nuevas oportunidades de optimización. Al hacerlo, definimos la longitud de secuencia en el contexto de los modelos TTI/TTV y observamos que esta puede variar hasta 4 veces en la inferencia de modelos de Difusión. Además, observamos que los aspectos temporales de las cargas de trabajo TTV presentan cuellos de botella únicos en el sistema, con la Atención Temporal representando más del 60% del tiempo total de Atención. En general, nuestra caracterización profunda del rendimiento del sistema es un primer paso crítico hacia el diseño de sistemas eficientes y desplegables para las emergentes cargas de trabajo TTI/TTV.
English
As the development of large-scale Generative AI models evolve beyond text
(1D) generation to include image (2D) and video (3D) generation, processing
spatial and temporal information presents unique challenges to quality,
performance, and efficiency. We present the first work towards understanding
this new system design space for multi-modal text-to-image (TTI) and
text-to-video (TTV) generation models. Current model architecture designs are
bifurcated into 2 categories: Diffusion- and Transformer-based models. Our
systematic performance characterization on a suite of eight representative
TTI/TTV models shows that after state-of-the-art optimization techniques such
as Flash Attention are applied, Convolution accounts for up to 44% of execution
time for Diffusion-based TTI models, while Linear layers consume up to 49% of
execution time for Transformer-based models. We additionally observe that
Diffusion-based TTI models resemble the Prefill stage of LLM inference, and
benefit from 1.1-2.5x greater speedup from Flash Attention than
Transformer-based TTI models that resemble the Decode phase. Since
optimizations designed for LLMs do not map directly onto TTI/TTV models, we
must conduct a thorough characterization of these workloads to gain insights
for new optimization opportunities. In doing so, we define sequence length in
the context of TTI/TTV models and observe sequence length can vary up to 4x in
Diffusion model inference. We additionally observe temporal aspects of TTV
workloads pose unique system bottlenecks, with Temporal Attention accounting
for over 60% of total Attention time. Overall, our in-depth system performance
characterization is a critical first step towards designing efficient and
deployable systems for emerging TTI/TTV workloads.Summary
AI-Generated Summary