IA Generativa Além dos LLMs: Implicações Sistêmicas da Geração Multimodal
Generative AI Beyond LLMs: System Implications of Multi-Modal Generation
December 22, 2023
Autores: Alicia Golden, Samuel Hsia, Fei Sun, Bilge Acun, Basil Hosmer, Yejin Lee, Zachary DeVito, Jeff Johnson, Gu-Yeon Wei, David Brooks, Carole-Jean Wu
cs.AI
Resumo
À medida que o desenvolvimento de modelos de IA Generativa em grande escala evolui além da geração de texto (1D) para incluir a geração de imagens (2D) e vídeos (3D), o processamento de informações espaciais e temporais apresenta desafios únicos em termos de qualidade, desempenho e eficiência. Apresentamos o primeiro trabalho voltado para a compreensão desse novo espaço de design de sistemas para modelos de geração multimodal de texto para imagem (TTI) e texto para vídeo (TTV). Os designs atuais de arquitetura de modelos são divididos em duas categorias: modelos baseados em Difusão e modelos baseados em Transformers. Nossa caracterização sistemática de desempenho em um conjunto de oito modelos representativos de TTI/TTV mostra que, após a aplicação de técnicas de otimização de última geração, como o Flash Attention, as Convoluções representam até 44% do tempo de execução para modelos TTI baseados em Difusão, enquanto as camadas Lineares consomem até 49% do tempo de execução para modelos baseados em Transformers. Além disso, observamos que os modelos TTI baseados em Difusão se assemelham à fase de Preenchimento (Prefill) da inferência de LLMs e se beneficiam de uma aceleração de 1,1 a 2,5 vezes maior com o Flash Attention em comparação com os modelos TTI baseados em Transformers, que se assemelham à fase de Decodificação. Como as otimizações projetadas para LLMs não se aplicam diretamente aos modelos TTI/TTV, é necessário realizar uma caracterização detalhada dessas cargas de trabalho para obter insights sobre novas oportunidades de otimização. Ao fazer isso, definimos o comprimento da sequência no contexto dos modelos TTI/TTV e observamos que o comprimento da sequência pode variar até 4 vezes na inferência de modelos de Difusão. Também observamos que os aspectos temporais das cargas de trabalho de TTV apresentam gargalos únicos no sistema, com a Atenção Temporal representando mais de 60% do tempo total de Atenção. No geral, nossa caracterização detalhada do desempenho do sistema é um primeiro passo crucial para projetar sistemas eficientes e implantáveis para as emergentes cargas de trabalho de TTI/TTV.
English
As the development of large-scale Generative AI models evolve beyond text
(1D) generation to include image (2D) and video (3D) generation, processing
spatial and temporal information presents unique challenges to quality,
performance, and efficiency. We present the first work towards understanding
this new system design space for multi-modal text-to-image (TTI) and
text-to-video (TTV) generation models. Current model architecture designs are
bifurcated into 2 categories: Diffusion- and Transformer-based models. Our
systematic performance characterization on a suite of eight representative
TTI/TTV models shows that after state-of-the-art optimization techniques such
as Flash Attention are applied, Convolution accounts for up to 44% of execution
time for Diffusion-based TTI models, while Linear layers consume up to 49% of
execution time for Transformer-based models. We additionally observe that
Diffusion-based TTI models resemble the Prefill stage of LLM inference, and
benefit from 1.1-2.5x greater speedup from Flash Attention than
Transformer-based TTI models that resemble the Decode phase. Since
optimizations designed for LLMs do not map directly onto TTI/TTV models, we
must conduct a thorough characterization of these workloads to gain insights
for new optimization opportunities. In doing so, we define sequence length in
the context of TTI/TTV models and observe sequence length can vary up to 4x in
Diffusion model inference. We additionally observe temporal aspects of TTV
workloads pose unique system bottlenecks, with Temporal Attention accounting
for over 60% of total Attention time. Overall, our in-depth system performance
characterization is a critical first step towards designing efficient and
deployable systems for emerging TTI/TTV workloads.