ChatPaper.aiChatPaper

Tora: Trajectorie-gericht Diffusie Transformer voor Videogeneratie

Tora: Trajectory-oriented Diffusion Transformer for Video Generation

July 31, 2024
Auteurs: Zhenghao Zhang, Junchao Liao, Menghao Li, Long Qin, Weizhi Wang
cs.AI

Samenvatting

Recente vooruitgang in Diffusion Transformer (DiT) heeft opmerkelijke vaardigheid getoond in het produceren van hoogwaardige videocontent. Desalniettemin blijft het potentieel van transformer-gebaseerde diffusiemodellen voor het effectief genereren van video's met controleerbare beweging een gebied met beperkte verkenning. Dit artikel introduceert Tora, het eerste traject-georiënteerde DiT-framework dat tekstuele, visuele en trajectcondities gelijktijdig integreert voor videogeneratie. Specifiek bestaat Tora uit een Trajectory Extractor (TE), een Spatial-Temporal DiT, en een Motion-guidance Fuser (MGF). De TE codeert willekeurige trajecten in hiërarchische ruimte-tijdbewegingspatches met een 3D-videocompressienetwerk. De MGF integreert de bewegingspatches in de DiT-blokken om consistente video's te genereren die trajecten volgen. Ons ontwerp sluit naadloos aan bij de schaalbaarheid van DiT, waardoor precieze controle over de dynamiek van videocontent mogelijk is met diverse duur, beeldverhoudingen en resoluties. Uitgebreide experimenten tonen de uitmuntendheid van Tora in het bereiken van hoge bewegingsgetrouwheid, terwijl ook de beweging van de fysieke wereld nauwkeurig wordt gesimuleerd. De pagina is te vinden op https://ali-videoai.github.io/tora_video.
English
Recent advancements in Diffusion Transformer (DiT) have demonstrated remarkable proficiency in producing high-quality video content. Nonetheless, the potential of transformer-based diffusion models for effectively generating videos with controllable motion remains an area of limited exploration. This paper introduces Tora, the first trajectory-oriented DiT framework that integrates textual, visual, and trajectory conditions concurrently for video generation. Specifically, Tora consists of a Trajectory Extractor~(TE), a Spatial-Temporal DiT, and a Motion-guidance Fuser~(MGF). The TE encodes arbitrary trajectories into hierarchical spacetime motion patches with a 3D video compression network. The MGF integrates the motion patches into the DiT blocks to generate consistent videos following trajectories. Our design aligns seamlessly with DiT's scalability, allowing precise control of video content's dynamics with diverse durations, aspect ratios, and resolutions. Extensive experiments demonstrate Tora's excellence in achieving high motion fidelity, while also meticulously simulating the movement of the physical world. Page can be found at https://ali-videoai.github.io/tora_video.
PDF272November 28, 2024