ChatPaper.aiChatPaper

Tora: 비디오 생성을 위한 궤적 지향 확산 트랜스포머

Tora: Trajectory-oriented Diffusion Transformer for Video Generation

July 31, 2024
저자: Zhenghao Zhang, Junchao Liao, Menghao Li, Long Qin, Weizhi Wang
cs.AI

초록

최근 Diffusion Transformer(DiT)의 발전은 고품질 비디오 콘텐츠 생성에서 뛰어난 능력을 입증했습니다. 그러나 트랜스포머 기반 확산 모델이 제어 가능한 동작을 가진 비디오를 효과적으로 생성할 수 있는 잠재력은 아직 충분히 탐구되지 않은 분야입니다. 본 논문은 텍스트, 시각적 정보, 궤적 조건을 동시에 통합하여 비디오를 생성하는 최초의 궤적 지향 DiT 프레임워크인 Tora를 소개합니다. 구체적으로, Tora는 Trajectory Extractor(TE), Spatial-Temporal DiT, 그리고 Motion-guidance Fuser(MGF)로 구성됩니다. TE는 3D 비디오 압축 네트워크를 사용하여 임의의 궤적을 계층적 시공간 동작 패치로 인코딩합니다. MGF는 이 동작 패치를 DiT 블록에 통합하여 궤적을 따르는 일관된 비디오를 생성합니다. 우리의 설계는 DiT의 확장성과 완벽하게 조화를 이루며, 다양한 지속 시간, 화면 비율, 해상도로 비디오 콘텐츠의 동적 요소를 정밀하게 제어할 수 있도록 합니다. 광범위한 실험을 통해 Tora가 높은 동작 충실도를 달성하는 동시에 물리적 세계의 움직임을 세심하게 시뮬레이션하는 데 탁월함을 입증했습니다. 자세한 내용은 https://ali-videoai.github.io/tora_video에서 확인할 수 있습니다.
English
Recent advancements in Diffusion Transformer (DiT) have demonstrated remarkable proficiency in producing high-quality video content. Nonetheless, the potential of transformer-based diffusion models for effectively generating videos with controllable motion remains an area of limited exploration. This paper introduces Tora, the first trajectory-oriented DiT framework that integrates textual, visual, and trajectory conditions concurrently for video generation. Specifically, Tora consists of a Trajectory Extractor~(TE), a Spatial-Temporal DiT, and a Motion-guidance Fuser~(MGF). The TE encodes arbitrary trajectories into hierarchical spacetime motion patches with a 3D video compression network. The MGF integrates the motion patches into the DiT blocks to generate consistent videos following trajectories. Our design aligns seamlessly with DiT's scalability, allowing precise control of video content's dynamics with diverse durations, aspect ratios, and resolutions. Extensive experiments demonstrate Tora's excellence in achieving high motion fidelity, while also meticulously simulating the movement of the physical world. Page can be found at https://ali-videoai.github.io/tora_video.

Summary

AI-Generated Summary

PDF282November 28, 2024