Генеративный ИИ за пределами больших языковых моделей: системные аспекты мультимодальной генерации
Generative AI Beyond LLMs: System Implications of Multi-Modal Generation
December 22, 2023
Авторы: Alicia Golden, Samuel Hsia, Fei Sun, Bilge Acun, Basil Hosmer, Yejin Lee, Zachary DeVito, Jeff Johnson, Gu-Yeon Wei, David Brooks, Carole-Jean Wu
cs.AI
Аннотация
По мере развития крупномасштабных генеративных моделей ИИ, выходящих за рамки генерации текста (1D) и включающих генерацию изображений (2D) и видео (3D), обработка пространственной и временной информации представляет уникальные вызовы для качества, производительности и эффективности. Мы представляем первую работу, направленную на понимание этого нового пространства проектирования систем для многомодальных моделей генерации текста в изображение (TTI) и текста в видео (TTV). Современные архитектуры моделей разделяются на две категории: модели на основе диффузии и модели на основе трансформеров. Наше систематическое исследование производительности на наборе из восьми репрезентативных моделей TTI/TTV показывает, что после применения передовых методов оптимизации, таких как Flash Attention, сверточные слои занимают до 44% времени выполнения для моделей TTI на основе диффузии, в то время как линейные слои потребляют до 49% времени выполнения для моделей на основе трансформеров. Мы также отмечаем, что модели TTI на основе диффузии напоминают этап предварительного заполнения (Prefill) в выводе больших языковых моделей (LLM) и получают выигрыш в скорости от Flash Attention в 1.1-2.5 раза больше, чем модели TTI на основе трансформеров, которые напоминают этап декодирования (Decode). Поскольку оптимизации, разработанные для LLM, не могут быть напрямую применены к моделям TTI/TTV, необходимо провести тщательное исследование этих задач, чтобы получить представление о новых возможностях оптимизации. В процессе мы определяем длину последовательности в контексте моделей TTI/TTV и отмечаем, что длина последовательности может варьироваться до 4 раз в выводе моделей на основе диффузии. Мы также наблюдаем, что временные аспекты задач TTV создают уникальные системные узкие места, причем временное внимание (Temporal Attention) занимает более 60% общего времени внимания. В целом, наше глубокое исследование производительности систем является важным первым шагом к проектированию эффективных и развертываемых систем для новых задач TTI/TTV.
English
As the development of large-scale Generative AI models evolve beyond text
(1D) generation to include image (2D) and video (3D) generation, processing
spatial and temporal information presents unique challenges to quality,
performance, and efficiency. We present the first work towards understanding
this new system design space for multi-modal text-to-image (TTI) and
text-to-video (TTV) generation models. Current model architecture designs are
bifurcated into 2 categories: Diffusion- and Transformer-based models. Our
systematic performance characterization on a suite of eight representative
TTI/TTV models shows that after state-of-the-art optimization techniques such
as Flash Attention are applied, Convolution accounts for up to 44% of execution
time for Diffusion-based TTI models, while Linear layers consume up to 49% of
execution time for Transformer-based models. We additionally observe that
Diffusion-based TTI models resemble the Prefill stage of LLM inference, and
benefit from 1.1-2.5x greater speedup from Flash Attention than
Transformer-based TTI models that resemble the Decode phase. Since
optimizations designed for LLMs do not map directly onto TTI/TTV models, we
must conduct a thorough characterization of these workloads to gain insights
for new optimization opportunities. In doing so, we define sequence length in
the context of TTI/TTV models and observe sequence length can vary up to 4x in
Diffusion model inference. We additionally observe temporal aspects of TTV
workloads pose unique system bottlenecks, with Temporal Attention accounting
for over 60% of total Attention time. Overall, our in-depth system performance
characterization is a critical first step towards designing efficient and
deployable systems for emerging TTI/TTV workloads.Summary
AI-Generated Summary