텍스트-비디오 생성에서 다중모드 계획 및 구조화된 노이즈 초기화를 통한 학습 없는 가이던스
Training-free Guidance in Text-to-Video Generation via Multimodal Planning and Structured Noise Initialization
April 11, 2025
저자: Jialu Li, Shoubin Yu, Han Lin, Jaemin Cho, Jaehong Yoon, Mohit Bansal
cs.AI
초록
최근 텍스트-투-비디오(T2V) 확산 모델의 발전으로 생성된 비디오의 시각적 품질이 크게 향상되었습니다. 그러나 최근의 T2V 모델들도 텍스트 설명을 정확히 따르는 데 어려움을 겪고 있으며, 특히 프롬프트가 공간적 레이아웃이나 객체 궤적의 정확한 제어를 요구할 때 더욱 그러합니다. 최근 연구들은 레이아웃 가이던스를 사용하여 T2V 모델을 개선하려고 시도했는데, 이는 추론 시간 동안 주의 맵의 미세 조정이나 반복적인 조작을 필요로 합니다. 이는 메모리 요구량을 크게 증가시켜 대형 T2V 모델을 백본으로 채택하기 어렵게 만듭니다. 이를 해결하기 위해, 우리는 다중 모드 계획과 구조화된 노이즈 초기화를 기반으로 한 훈련이 필요 없는 T2V 생성 가이던스 방법인 Video-MSG를 소개합니다. Video-MSG는 세 단계로 구성되며, 처음 두 단계에서 Video-MSG는 최종 비디오를 위한 세밀한 시공간적 계획인 Video Sketch를 생성합니다. 이는 배경, 전경, 그리고 객체 궤적을 초안 비디오 프레임 형태로 명시합니다. 마지막 단계에서 Video-MSG는 노이즈 역전과 노이즈 제거를 통해 Video Sketch를 사용하여 하위 T2V 확산 모델을 가이드합니다. 특히, Video-MSG는 추론 시간 동안 추가 메모리를 사용한 미세 조정이나 주의 조작이 필요 없어 대형 T2V 모델을 더 쉽게 채택할 수 있습니다. Video-MSG는 인기 있는 T2V 생성 벤치마크(T2VCompBench 및 VBench)에서 여러 T2V 백본(VideoCrafter2 및 CogVideoX-5B)과 함께 텍스트 정렬을 향상시키는 데 효과적임을 입증합니다. 우리는 노이즈 역전 비율, 다양한 배경 생성기, 배경 객체 탐지, 그리고 전경 객체 분할에 대한 포괄적인 절제 연구를 제공합니다.
English
Recent advancements in text-to-video (T2V) diffusion models have
significantly enhanced the visual quality of the generated videos. However,
even recent T2V models find it challenging to follow text descriptions
accurately, especially when the prompt requires accurate control of spatial
layouts or object trajectories. A recent line of research uses layout guidance
for T2V models that require fine-tuning or iterative manipulation of the
attention map during inference time. This significantly increases the memory
requirement, making it difficult to adopt a large T2V model as a backbone. To
address this, we introduce Video-MSG, a training-free Guidance method for T2V
generation based on Multimodal planning and Structured noise initialization.
Video-MSG consists of three steps, where in the first two steps, Video-MSG
creates Video Sketch, a fine-grained spatio-temporal plan for the final video,
specifying background, foreground, and object trajectories, in the form of
draft video frames. In the last step, Video-MSG guides a downstream T2V
diffusion model with Video Sketch through noise inversion and denoising.
Notably, Video-MSG does not need fine-tuning or attention manipulation with
additional memory during inference time, making it easier to adopt large T2V
models. Video-MSG demonstrates its effectiveness in enhancing text alignment
with multiple T2V backbones (VideoCrafter2 and CogVideoX-5B) on popular T2V
generation benchmarks (T2VCompBench and VBench). We provide comprehensive
ablation studies about noise inversion ratio, different background generators,
background object detection, and foreground object segmentation.Summary
AI-Generated Summary