Guidance sans entraînement dans la génération texte-vidéo via une planification multimodale et une initialisation structurée du bruit
Training-free Guidance in Text-to-Video Generation via Multimodal Planning and Structured Noise Initialization
April 11, 2025
Auteurs: Jialu Li, Shoubin Yu, Han Lin, Jaemin Cho, Jaehong Yoon, Mohit Bansal
cs.AI
Résumé
Les récents progrès des modèles de diffusion texte-vidéo (T2V) ont considérablement amélioré la qualité visuelle des vidéos générées. Cependant, même les modèles T2V les plus récents rencontrent des difficultés à suivre avec précision les descriptions textuelles, en particulier lorsque l'instruction nécessite un contrôle précis des dispositions spatiales ou des trajectoires d'objets. Une récente ligne de recherche utilise des guidages de mise en page pour les modèles T2V, qui nécessitent un ajustement fin ou une manipulation itérative de la carte d'attention pendant le temps d'inférence. Cela augmente significativement les besoins en mémoire, rendant difficile l'adoption d'un grand modèle T2V comme architecture de base. Pour résoudre ce problème, nous introduisons Video-MSG, une méthode de guidage sans ajustement pour la génération T2V, basée sur une planification multimodale et une initialisation structurée du bruit. Video-MSG se compose de trois étapes : dans les deux premières étapes, Video-MSG crée un croquis vidéo, un plan spatio-temporel détaillé pour la vidéo finale, spécifiant l'arrière-plan, l'avant-plan et les trajectoires d'objets sous forme de trames vidéo préliminaires. Dans la dernière étape, Video-MSG guide un modèle de diffusion T2V en aval avec le croquis vidéo via une inversion du bruit et un débruitage. Notamment, Video-MSG ne nécessite ni ajustement fin ni manipulation de l'attention avec une mémoire supplémentaire pendant le temps d'inférence, facilitant ainsi l'adoption de grands modèles T2V. Video-MSG démontre son efficacité à améliorer l'alignement textuel avec plusieurs architectures T2V (VideoCrafter2 et CogVideoX-5B) sur des benchmarks populaires de génération T2V (T2VCompBench et VBench). Nous fournissons des études d'ablation approfondies sur le ratio d'inversion du bruit, différents générateurs d'arrière-plan, la détection d'objets en arrière-plan et la segmentation d'objets en avant-plan.
English
Recent advancements in text-to-video (T2V) diffusion models have
significantly enhanced the visual quality of the generated videos. However,
even recent T2V models find it challenging to follow text descriptions
accurately, especially when the prompt requires accurate control of spatial
layouts or object trajectories. A recent line of research uses layout guidance
for T2V models that require fine-tuning or iterative manipulation of the
attention map during inference time. This significantly increases the memory
requirement, making it difficult to adopt a large T2V model as a backbone. To
address this, we introduce Video-MSG, a training-free Guidance method for T2V
generation based on Multimodal planning and Structured noise initialization.
Video-MSG consists of three steps, where in the first two steps, Video-MSG
creates Video Sketch, a fine-grained spatio-temporal plan for the final video,
specifying background, foreground, and object trajectories, in the form of
draft video frames. In the last step, Video-MSG guides a downstream T2V
diffusion model with Video Sketch through noise inversion and denoising.
Notably, Video-MSG does not need fine-tuning or attention manipulation with
additional memory during inference time, making it easier to adopt large T2V
models. Video-MSG demonstrates its effectiveness in enhancing text alignment
with multiple T2V backbones (VideoCrafter2 and CogVideoX-5B) on popular T2V
generation benchmarks (T2VCompBench and VBench). We provide comprehensive
ablation studies about noise inversion ratio, different background generators,
background object detection, and foreground object segmentation.Summary
AI-Generated Summary