ChatPaper.aiChatPaper

AccVideo: Ускорение модели диффузии видео с использованием синтетического набора данных

AccVideo: Accelerating Video Diffusion Model with Synthetic Dataset

March 25, 2025
Авторы: Haiyu Zhang, Xinyuan Chen, Yaohui Wang, Xihui Liu, Yunhong Wang, Yu Qiao
cs.AI

Аннотация

Диффузионные модели достигли значительных успехов в области генерации видео. Однако их итеративная природа, связанная с удалением шума, требует большого количества шагов вывода для создания видео, что делает процесс медленным и вычислительно затратным. В данной работе мы начинаем с детального анализа проблем, присущих существующим методам дистилляции диффузионных моделей, и предлагаем новый эффективный метод, названный AccVideo, для сокращения количества шагов вывода с целью ускорения видео-диффузионных моделей с использованием синтетического набора данных. Мы используем предобученную видео-диффузионную модель для генерации множества допустимых траекторий удаления шума в качестве нашего синтетического набора данных, что исключает использование бесполезных точек данных в процессе дистилляции. На основе синтетического набора данных мы разрабатываем траекторно-ориентированное руководство с малым количеством шагов, которое использует ключевые точки данных из траекторий удаления шума для обучения отображения "шум-видео", что позволяет генерировать видео за меньшее количество шагов. Кроме того, поскольку синтетический набор данных захватывает распределение данных на каждом шаге диффузии, мы вводим стратегию состязательного обучения для согласования выходного распределения ученической модели с распределением нашего синтетического набора данных, тем самым повышая качество видео. Многочисленные эксперименты демонстрируют, что наша модель достигает 8.5-кратного улучшения скорости генерации по сравнению с учительской моделью при сохранении сопоставимой производительности. По сравнению с предыдущими методами ускорения, наш подход способен генерировать видео более высокого качества и разрешения, а именно: 5 секунд, 720x1280, 24 кадра в секунду.
English
Diffusion models have achieved remarkable progress in the field of video generation. However, their iterative denoising nature requires a large number of inference steps to generate a video, which is slow and computationally expensive. In this paper, we begin with a detailed analysis of the challenges present in existing diffusion distillation methods and propose a novel efficient method, namely AccVideo, to reduce the inference steps for accelerating video diffusion models with synthetic dataset. We leverage the pretrained video diffusion model to generate multiple valid denoising trajectories as our synthetic dataset, which eliminates the use of useless data points during distillation. Based on the synthetic dataset, we design a trajectory-based few-step guidance that utilizes key data points from the denoising trajectories to learn the noise-to-video mapping, enabling video generation in fewer steps. Furthermore, since the synthetic dataset captures the data distribution at each diffusion timestep, we introduce an adversarial training strategy to align the output distribution of the student model with that of our synthetic dataset, thereby enhancing the video quality. Extensive experiments demonstrate that our model achieves 8.5x improvements in generation speed compared to the teacher model while maintaining comparable performance. Compared to previous accelerating methods, our approach is capable of generating videos with higher quality and resolution, i.e., 5-seconds, 720x1280, 24fps.

Summary

AI-Generated Summary

PDF102March 27, 2025