Orientación sin entrenamiento en la generación de texto a video mediante planificación multimodal e inicialización de ruido estructurado
Training-free Guidance in Text-to-Video Generation via Multimodal Planning and Structured Noise Initialization
April 11, 2025
Autores: Jialu Li, Shoubin Yu, Han Lin, Jaemin Cho, Jaehong Yoon, Mohit Bansal
cs.AI
Resumen
Los recientes avances en los modelos de difusión de texto a video (T2V) han mejorado significativamente la calidad visual de los videos generados. Sin embargo, incluso los modelos T2V más recientes encuentran dificultades para seguir con precisión las descripciones de texto, especialmente cuando el prompt requiere un control preciso de los diseños espaciales o las trayectorias de los objetos. Una línea de investigación reciente utiliza guías de diseño para modelos T2V que requieren ajustes finos o manipulación iterativa del mapa de atención durante el tiempo de inferencia. Esto aumenta considerablemente los requisitos de memoria, dificultando la adopción de un modelo T2V grande como columna vertebral. Para abordar esto, presentamos Video-MSG, un método de guía sin necesidad de entrenamiento para la generación T2V basado en planificación multimodal e inicialización estructurada de ruido. Video-MSG consta de tres pasos: en los dos primeros, Video-MSG crea un Video Sketch, un plan espacio-temporal detallado para el video final, especificando el fondo, el primer plano y las trayectorias de los objetos en forma de borradores de fotogramas. En el último paso, Video-MSG guía un modelo de difusión T2V descendente con el Video Sketch mediante inversión de ruido y eliminación de ruido. Cabe destacar que Video-MSG no requiere ajustes finos ni manipulación de la atención con memoria adicional durante el tiempo de inferencia, lo que facilita la adopción de modelos T2V grandes. Video-MSG demuestra su eficacia para mejorar la alineación del texto con múltiples modelos T2V (VideoCrafter2 y CogVideoX-5B) en benchmarks populares de generación T2V (T2VCompBench y VBench). Proporcionamos estudios de ablación exhaustivos sobre la proporción de inversión de ruido, diferentes generadores de fondo, detección de objetos en el fondo y segmentación de objetos en primer plano.
English
Recent advancements in text-to-video (T2V) diffusion models have
significantly enhanced the visual quality of the generated videos. However,
even recent T2V models find it challenging to follow text descriptions
accurately, especially when the prompt requires accurate control of spatial
layouts or object trajectories. A recent line of research uses layout guidance
for T2V models that require fine-tuning or iterative manipulation of the
attention map during inference time. This significantly increases the memory
requirement, making it difficult to adopt a large T2V model as a backbone. To
address this, we introduce Video-MSG, a training-free Guidance method for T2V
generation based on Multimodal planning and Structured noise initialization.
Video-MSG consists of three steps, where in the first two steps, Video-MSG
creates Video Sketch, a fine-grained spatio-temporal plan for the final video,
specifying background, foreground, and object trajectories, in the form of
draft video frames. In the last step, Video-MSG guides a downstream T2V
diffusion model with Video Sketch through noise inversion and denoising.
Notably, Video-MSG does not need fine-tuning or attention manipulation with
additional memory during inference time, making it easier to adopt large T2V
models. Video-MSG demonstrates its effectiveness in enhancing text alignment
with multiple T2V backbones (VideoCrafter2 and CogVideoX-5B) on popular T2V
generation benchmarks (T2VCompBench and VBench). We provide comprehensive
ablation studies about noise inversion ratio, different background generators,
background object detection, and foreground object segmentation.Summary
AI-Generated Summary