Control de movimiento para la generación mejorada de videos de acción compleja.
Motion Control for Enhanced Complex Action Video Generation
November 13, 2024
Autores: Qiang Zhou, Shaofeng Zhang, Nianzu Yang, Ye Qian, Hao Li
cs.AI
Resumen
Los modelos existentes de texto a video (T2V) a menudo tienen dificultades para generar videos con acciones suficientemente pronunciadas o complejas. Una limitación clave radica en la incapacidad de la indicación de texto para transmitir con precisión detalles de movimiento intrincados. Para abordar esto, proponemos un marco novedoso, MVideo, diseñado para producir videos de larga duración con acciones precisas y fluidas. MVideo supera las limitaciones de las indicaciones de texto al incorporar secuencias de máscaras como una entrada adicional de condición de movimiento, proporcionando una representación más clara y precisa de las acciones previstas. Aprovechando modelos de visión fundamentales como GroundingDINO y SAM2, MVideo genera automáticamente secuencias de máscaras, mejorando tanto la eficiencia como la robustez. Nuestros resultados demuestran que, después del entrenamiento, MVideo alinea efectivamente las indicaciones de texto con las condiciones de movimiento para producir videos que cumplen simultáneamente ambos criterios. Este mecanismo de control dual permite una generación de video más dinámica al permitir alteraciones tanto en la indicación de texto como en la condición de movimiento de forma independiente, o ambas en conjunto. Además, MVideo admite la edición y composición de condiciones de movimiento, facilitando la generación de videos con acciones más complejas. Por lo tanto, MVideo avanza en la generación de movimiento T2V, estableciendo un sólido punto de referencia para una mejor representación de acciones en los modelos actuales de difusión de video. Nuestra página del proyecto está disponible en https://mvideo-v1.github.io/.
English
Existing text-to-video (T2V) models often struggle with generating videos
with sufficiently pronounced or complex actions. A key limitation lies in the
text prompt's inability to precisely convey intricate motion details. To
address this, we propose a novel framework, MVideo, designed to produce
long-duration videos with precise, fluid actions. MVideo overcomes the
limitations of text prompts by incorporating mask sequences as an additional
motion condition input, providing a clearer, more accurate representation of
intended actions. Leveraging foundational vision models such as GroundingDINO
and SAM2, MVideo automatically generates mask sequences, enhancing both
efficiency and robustness. Our results demonstrate that, after training, MVideo
effectively aligns text prompts with motion conditions to produce videos that
simultaneously meet both criteria. This dual control mechanism allows for more
dynamic video generation by enabling alterations to either the text prompt or
motion condition independently, or both in tandem. Furthermore, MVideo supports
motion condition editing and composition, facilitating the generation of videos
with more complex actions. MVideo thus advances T2V motion generation, setting
a strong benchmark for improved action depiction in current video diffusion
models. Our project page is available at https://mvideo-v1.github.io/.Summary
AI-Generated Summary