Difusión como sombreador: Difusión de video consciente en 3D para un control versátil de generación de video
Diffusion as Shader: 3D-aware Video Diffusion for Versatile Video Generation Control
January 7, 2025
Autores: Zekai Gu, Rui Yan, Jiahao Lu, Peng Li, Zhiyang Dou, Chenyang Si, Zhen Dong, Qifeng Liu, Cheng Lin, Ziwei Liu, Wenping Wang, Yuan Liu
cs.AI
Resumen
Los modelos de difusión han demostrado un rendimiento impresionante en la generación de videos de alta calidad a partir de indicaciones de texto o imágenes. Sin embargo, el control preciso sobre el proceso de generación de video, como la manipulación de la cámara o la edición de contenido, sigue siendo un desafío significativo. Los métodos existentes para la generación de video controlada suelen estar limitados a un solo tipo de control, careciendo de la flexibilidad para manejar diversas demandas de control. En este documento, presentamos Difusión como Shader (DaS), un enfoque novedoso que soporta múltiples tareas de control de video dentro de una arquitectura unificada. Nuestra idea clave es que lograr un control versátil de video requiere aprovechar las señales de control 3D, ya que los videos son fundamentalmente representaciones 2D de contenido 3D dinámico. A diferencia de los métodos anteriores limitados a señales de control 2D, DaS aprovecha videos de seguimiento 3D como entradas de control, haciendo que el proceso de difusión de video sea inherentemente consciente de 3D. Esta innovación permite que DaS logre una amplia gama de controles de video simplemente manipulando los videos de seguimiento 3D. Una ventaja adicional de usar videos de seguimiento 3D es su capacidad para vincular efectivamente fotogramas, mejorando significativamente la consistencia temporal de los videos generados. Con solo 3 días de ajuste fino en 8 GPUs H800 utilizando menos de 10k videos, DaS demuestra fuertes capacidades de control en diversas tareas, incluida la generación de video a partir de mallas, control de cámara, transferencia de movimiento y manipulación de objetos.
English
Diffusion models have demonstrated impressive performance in generating
high-quality videos from text prompts or images. However, precise control over
the video generation process, such as camera manipulation or content editing,
remains a significant challenge. Existing methods for controlled video
generation are typically limited to a single control type, lacking the
flexibility to handle diverse control demands. In this paper, we introduce
Diffusion as Shader (DaS), a novel approach that supports multiple video
control tasks within a unified architecture. Our key insight is that achieving
versatile video control necessitates leveraging 3D control signals, as videos
are fundamentally 2D renderings of dynamic 3D content. Unlike prior methods
limited to 2D control signals, DaS leverages 3D tracking videos as control
inputs, making the video diffusion process inherently 3D-aware. This innovation
allows DaS to achieve a wide range of video controls by simply manipulating the
3D tracking videos. A further advantage of using 3D tracking videos is their
ability to effectively link frames, significantly enhancing the temporal
consistency of the generated videos. With just 3 days of fine-tuning on 8 H800
GPUs using less than 10k videos, DaS demonstrates strong control capabilities
across diverse tasks, including mesh-to-video generation, camera control,
motion transfer, and object manipulation.Summary
AI-Generated Summary