ChatPaper.aiChatPaper

Tora: Trasformatore a Diffusione Orientato alla Traiettoria per la Generazione Video

Tora: Trajectory-oriented Diffusion Transformer for Video Generation

July 31, 2024
Autori: Zhenghao Zhang, Junchao Liao, Menghao Li, Long Qin, Weizhi Wang
cs.AI

Abstract

I recenti progressi nei Diffusion Transformer (DiT) hanno dimostrato una notevole capacità nella produzione di contenuti video di alta qualità. Tuttavia, il potenziale dei modelli di diffusione basati su transformer per generare efficacemente video con movimento controllabile rimane un'area poco esplorata. Questo articolo introduce Tora, il primo framework DiT orientato alle traiettorie che integra contemporaneamente condizioni testuali, visive e di traiettoria per la generazione di video. Nello specifico, Tora è composto da un Trajectory Extractor (TE), un DiT Spaziale-Temporale e un Motion-guidance Fuser (MGF). Il TE codifica traiettorie arbitrarie in patch di movimento spazio-temporali gerarchiche utilizzando una rete di compressione video 3D. L'MGF integra le patch di movimento nei blocchi DiT per generare video coerenti che seguono le traiettorie. Il nostro design si integra perfettamente con la scalabilità del DiT, consentendo un controllo preciso della dinamica del contenuto video con diverse durate, rapporti d'aspetto e risoluzioni. Esperimenti estensivi dimostrano l'eccellenza di Tora nel raggiungere un'elevata fedeltà del movimento, simulando meticolosamente il movimento del mondo fisico. La pagina può essere trovata all'indirizzo https://ali-videoai.github.io/tora_video.
English
Recent advancements in Diffusion Transformer (DiT) have demonstrated remarkable proficiency in producing high-quality video content. Nonetheless, the potential of transformer-based diffusion models for effectively generating videos with controllable motion remains an area of limited exploration. This paper introduces Tora, the first trajectory-oriented DiT framework that integrates textual, visual, and trajectory conditions concurrently for video generation. Specifically, Tora consists of a Trajectory Extractor~(TE), a Spatial-Temporal DiT, and a Motion-guidance Fuser~(MGF). The TE encodes arbitrary trajectories into hierarchical spacetime motion patches with a 3D video compression network. The MGF integrates the motion patches into the DiT blocks to generate consistent videos following trajectories. Our design aligns seamlessly with DiT's scalability, allowing precise control of video content's dynamics with diverse durations, aspect ratios, and resolutions. Extensive experiments demonstrate Tora's excellence in achieving high motion fidelity, while also meticulously simulating the movement of the physical world. Page can be found at https://ali-videoai.github.io/tora_video.
PDF272November 28, 2024