Tora: Transformador de Difusión Orientado a Trayectorias para la Generación de Video
Tora: Trajectory-oriented Diffusion Transformer for Video Generation
July 31, 2024
Autores: Zhenghao Zhang, Junchao Liao, Menghao Li, Long Qin, Weizhi Wang
cs.AI
Resumen
Los recientes avances en el Transformer de Difusión (DiT) han demostrado una notable eficacia en la producción de contenido de video de alta calidad. Sin embargo, el potencial de los modelos de difusión basados en transformers para generar videos con movimiento controlable sigue siendo un área de exploración limitada. Este artículo presenta Tora, el primer marco de trabajo DiT orientado a trayectorias que integra condiciones textuales, visuales y de trayectoria de manera simultánea para la generación de videos. Específicamente, Tora consta de un Extractor de Trayectorias (TE), un DiT Espacio-Temporal y un Fusor de Guía de Movimiento (MGF). El TE codifica trayectorias arbitrarias en parches jerárquicos de movimiento espacio-temporales con una red de compresión de video 3D. El MGF integra los parches de movimiento en los bloques de DiT para generar videos consistentes siguiendo trayectorias. Nuestro diseño se alinea perfectamente con la escalabilidad de DiT, permitiendo un control preciso de la dinámica del contenido de video con diversas duraciones, relaciones de aspecto y resoluciones. Experimentos extensos demuestran la excelencia de Tora en lograr una alta fidelidad de movimiento, al mismo tiempo que simula meticulosamente el movimiento del mundo físico. La página se puede encontrar en https://ali-videoai.github.io/tora_video.
English
Recent advancements in Diffusion Transformer (DiT) have demonstrated
remarkable proficiency in producing high-quality video content. Nonetheless,
the potential of transformer-based diffusion models for effectively generating
videos with controllable motion remains an area of limited exploration. This
paper introduces Tora, the first trajectory-oriented DiT framework that
integrates textual, visual, and trajectory conditions concurrently for video
generation. Specifically, Tora consists of a Trajectory Extractor~(TE), a
Spatial-Temporal DiT, and a Motion-guidance Fuser~(MGF). The TE encodes
arbitrary trajectories into hierarchical spacetime motion patches with a 3D
video compression network. The MGF integrates the motion patches into the DiT
blocks to generate consistent videos following trajectories. Our design aligns
seamlessly with DiT's scalability, allowing precise control of video content's
dynamics with diverse durations, aspect ratios, and resolutions. Extensive
experiments demonstrate Tora's excellence in achieving high motion fidelity,
while also meticulously simulating the movement of the physical world. Page can
be found at https://ali-videoai.github.io/tora_video.Summary
AI-Generated Summary