Tora: 映像生成のための軌道指向拡散トランスフォーマー
Tora: Trajectory-oriented Diffusion Transformer for Video Generation
July 31, 2024
著者: Zhenghao Zhang, Junchao Liao, Menghao Li, Long Qin, Weizhi Wang
cs.AI
要旨
最近のDiffusion Transformer(DiT)の進展は、高品質な動画コンテンツの生成において顕著な能力を示しています。しかしながら、Transformerベースの拡散モデルを用いて、制御可能な動きを持つ動画を効果的に生成する可能性は、まだ十分に探求されていない領域です。本論文では、テキスト、視覚、軌跡の条件を同時に統合した初の軌跡指向型DiTフレームワークであるToraを紹介します。具体的には、ToraはTrajectory Extractor(TE)、Spatial-Temporal DiT、およびMotion-guidance Fuser(MGF)で構成されています。TEは、3D動画圧縮ネットワークを用いて任意の軌跡を階層的な時空間モーションパッチにエンコードします。MGFは、これらのモーションパッチをDiTブロックに統合し、軌跡に従った一貫性のある動画を生成します。我々の設計はDiTのスケーラビリティとシームレスに整合し、動画コンテンツのダイナミクスを多様な時間、アスペクト比、解像度で精密に制御することを可能にします。大規模な実験により、Toraが高いモーション忠実度を達成しつつ、物理世界の動きを緻密にシミュレートする優れた能力を実証しています。詳細はhttps://ali-videoai.github.io/tora_videoをご覧ください。
English
Recent advancements in Diffusion Transformer (DiT) have demonstrated
remarkable proficiency in producing high-quality video content. Nonetheless,
the potential of transformer-based diffusion models for effectively generating
videos with controllable motion remains an area of limited exploration. This
paper introduces Tora, the first trajectory-oriented DiT framework that
integrates textual, visual, and trajectory conditions concurrently for video
generation. Specifically, Tora consists of a Trajectory Extractor~(TE), a
Spatial-Temporal DiT, and a Motion-guidance Fuser~(MGF). The TE encodes
arbitrary trajectories into hierarchical spacetime motion patches with a 3D
video compression network. The MGF integrates the motion patches into the DiT
blocks to generate consistent videos following trajectories. Our design aligns
seamlessly with DiT's scalability, allowing precise control of video content's
dynamics with diverse durations, aspect ratios, and resolutions. Extensive
experiments demonstrate Tora's excellence in achieving high motion fidelity,
while also meticulously simulating the movement of the physical world. Page can
be found at https://ali-videoai.github.io/tora_video.Summary
AI-Generated Summary