Диффузия как шейдер: трехмерная видеодиффузия для универсального контроля генерации видео.
Diffusion as Shader: 3D-aware Video Diffusion for Versatile Video Generation Control
January 7, 2025
Авторы: Zekai Gu, Rui Yan, Jiahao Lu, Peng Li, Zhiyang Dou, Chenyang Si, Zhen Dong, Qifeng Liu, Cheng Lin, Ziwei Liu, Wenping Wang, Yuan Liu
cs.AI
Аннотация
Модели диффузии продемонстрировали впечатляющую производительность в создании видеороликов высокого качества по текстовым подсказкам или изображениям. Однако точное управление процессом генерации видео, такое как манипуляции с камерой или редактирование контента, остается значительным вызовом. Существующие методы управляемой генерации видео обычно ограничены одним типом управления, лишены гибкости для решения разнообразных требований управления. В данной статье мы представляем Диффузию как Шейдер (DaS), новый подход, который поддерживает несколько задач управления видео в рамках единой архитектуры. Наш ключевой инсайт заключается в том, что для достижения универсального управления видео необходимо использовать 3D сигналы управления, поскольку видео фундаментально являются 2D изображениями динамического 3D контента. В отличие от предыдущих методов, ограниченных 2D сигналами управления, DaS использует отслеживание 3D видео в качестве входных данных управления, что делает процесс диффузии видео внутренне осведомленным о 3D. Эта инновация позволяет DaS достигать широкого спектра управления видео просто путем манипулирования 3D отслеживающими видео. Дополнительным преимуществом использования 3D отслеживающих видео является их способность эффективно связывать кадры, значительно улучшая временную согласованность созданных видео. Просто с помощью 3-дневной доводки на 8 H800 GPU, используя менее 10 тыс. видеороликов, DaS демонстрирует сильные возможности управления в различных задачах, включая генерацию видео из сетки, управление камерой, передачу движения и манипулирование объектами.
English
Diffusion models have demonstrated impressive performance in generating
high-quality videos from text prompts or images. However, precise control over
the video generation process, such as camera manipulation or content editing,
remains a significant challenge. Existing methods for controlled video
generation are typically limited to a single control type, lacking the
flexibility to handle diverse control demands. In this paper, we introduce
Diffusion as Shader (DaS), a novel approach that supports multiple video
control tasks within a unified architecture. Our key insight is that achieving
versatile video control necessitates leveraging 3D control signals, as videos
are fundamentally 2D renderings of dynamic 3D content. Unlike prior methods
limited to 2D control signals, DaS leverages 3D tracking videos as control
inputs, making the video diffusion process inherently 3D-aware. This innovation
allows DaS to achieve a wide range of video controls by simply manipulating the
3D tracking videos. A further advantage of using 3D tracking videos is their
ability to effectively link frames, significantly enhancing the temporal
consistency of the generated videos. With just 3 days of fine-tuning on 8 H800
GPUs using less than 10k videos, DaS demonstrates strong control capabilities
across diverse tasks, including mesh-to-video generation, camera control,
motion transfer, and object manipulation.Summary
AI-Generated Summary