ChatPaper.aiChatPaper

Tora: Transformador de Difusión Orientado a Trayectorias para la Generación de Video

Tora: Trajectory-oriented Diffusion Transformer for Video Generation

July 31, 2024
Autores: Zhenghao Zhang, Junchao Liao, Menghao Li, Long Qin, Weizhi Wang
cs.AI

Resumen

Los recientes avances en el Transformer de Difusión (DiT) han demostrado una notable eficacia en la producción de contenido de video de alta calidad. Sin embargo, el potencial de los modelos de difusión basados en transformers para generar videos con movimiento controlable sigue siendo un área de exploración limitada. Este artículo presenta Tora, el primer marco de trabajo DiT orientado a trayectorias que integra condiciones textuales, visuales y de trayectoria de manera simultánea para la generación de videos. Específicamente, Tora consta de un Extractor de Trayectorias (TE), un DiT Espacio-Temporal y un Fusor de Guía de Movimiento (MGF). El TE codifica trayectorias arbitrarias en parches jerárquicos de movimiento espacio-temporales con una red de compresión de video 3D. El MGF integra los parches de movimiento en los bloques de DiT para generar videos consistentes siguiendo trayectorias. Nuestro diseño se alinea perfectamente con la escalabilidad de DiT, permitiendo un control preciso de la dinámica del contenido de video con diversas duraciones, relaciones de aspecto y resoluciones. Experimentos extensos demuestran la excelencia de Tora en lograr una alta fidelidad de movimiento, al mismo tiempo que simula meticulosamente el movimiento del mundo físico. La página se puede encontrar en https://ali-videoai.github.io/tora_video.
English
Recent advancements in Diffusion Transformer (DiT) have demonstrated remarkable proficiency in producing high-quality video content. Nonetheless, the potential of transformer-based diffusion models for effectively generating videos with controllable motion remains an area of limited exploration. This paper introduces Tora, the first trajectory-oriented DiT framework that integrates textual, visual, and trajectory conditions concurrently for video generation. Specifically, Tora consists of a Trajectory Extractor~(TE), a Spatial-Temporal DiT, and a Motion-guidance Fuser~(MGF). The TE encodes arbitrary trajectories into hierarchical spacetime motion patches with a 3D video compression network. The MGF integrates the motion patches into the DiT blocks to generate consistent videos following trajectories. Our design aligns seamlessly with DiT's scalability, allowing precise control of video content's dynamics with diverse durations, aspect ratios, and resolutions. Extensive experiments demonstrate Tora's excellence in achieving high motion fidelity, while also meticulously simulating the movement of the physical world. Page can be found at https://ali-videoai.github.io/tora_video.

Summary

AI-Generated Summary

PDF282November 28, 2024