ChatPaper.aiChatPaper

Минутные видео с двойным параллелизмом

Minute-Long Videos with Dual Parallelisms

May 27, 2025
Авторы: Zeqing Wang, Bowen Zheng, Xingyi Yang, Yuecong Xu, Xinchao Wang
cs.AI

Аннотация

Модели генерации видео на основе Diffusion Transformer (DiT) создают высококачественные видео в больших масштабах, но сталкиваются с неприемлемо высокой задержкой обработки и затратами памяти для длинных видео. Чтобы решить эту проблему, мы предлагаем новую стратегию распределенного вывода, названную DualParal. Основная идея заключается в том, что вместо генерации всего видео на одном GPU мы параллелизуем как временные кадры, так и слои модели на нескольких GPU. Однако наивная реализация такого разделения сталкивается с ключевым ограничением: поскольку диффузионные модели требуют синхронизированных уровней шума между кадрами, такая реализация приводит к сериализации изначально параллельных процессов. Мы используем блочную схему удаления шума для решения этой проблемы. А именно, мы обрабатываем последовательность блоков кадров через конвейер с постепенно уменьшающимися уровнями шума. Каждый GPU обрабатывает определенный блок и подмножество слоев, передавая предыдущие результаты следующему GPU, что позволяет асинхронные вычисления и коммуникацию. Для дальнейшей оптимизации производительности мы внедряем два ключевых улучшения. Во-первых, на каждом GPU реализуется кэш признаков для хранения и повторного использования признаков из предыдущего блока в качестве контекста, что минимизирует меж-GPU коммуникацию и избыточные вычисления. Во-вторых, мы применяем согласованную стратегию инициализации шума, обеспечивая глобально согласованную временную динамику за счет совместного использования начальных паттернов шума между GPU без дополнительных затрат ресурсов. В совокупности это позволяет быстрое, артефакт-свободное и бесконечно длинное генерирование видео. Примененный к последнему генератору видео на основе диффузионного трансформера, наш метод эффективно создает видео из 1025 кадров с задержкой до 6.54 раз ниже и затратами памяти до 1.48 раз меньше на 8 GPU RTX 4090.
English
Diffusion Transformer (DiT)-based video diffusion models generate high-quality videos at scale but incur prohibitive processing latency and memory costs for long videos. To address this, we propose a novel distributed inference strategy, termed DualParal. The core idea is that, instead of generating an entire video on a single GPU, we parallelize both temporal frames and model layers across GPUs. However, a naive implementation of this division faces a key limitation: since diffusion models require synchronized noise levels across frames, this implementation leads to the serialization of original parallelisms. We leverage a block-wise denoising scheme to handle this. Namely, we process a sequence of frame blocks through the pipeline with progressively decreasing noise levels. Each GPU handles a specific block and layer subset while passing previous results to the next GPU, enabling asynchronous computation and communication. To further optimize performance, we incorporate two key enhancements. Firstly, a feature cache is implemented on each GPU to store and reuse features from the prior block as context, minimizing inter-GPU communication and redundant computation. Secondly, we employ a coordinated noise initialization strategy, ensuring globally consistent temporal dynamics by sharing initial noise patterns across GPUs without extra resource costs. Together, these enable fast, artifact-free, and infinitely long video generation. Applied to the latest diffusion transformer video generator, our method efficiently produces 1,025-frame videos with up to 6.54times lower latency and 1.48times lower memory cost on 8timesRTX 4090 GPUs.
PDF52May 28, 2025