Haz que los píxeles bailen: Generación de video de alto rango dinámico
Make Pixels Dance: High-Dynamic Video Generation
November 18, 2023
Autores: Yan Zeng, Guoqiang Wei, Jiani Zheng, Jiaxin Zou, Yang Wei, Yuchen Zhang, Hang Li
cs.AI
Resumen
La creación de videos de alto dinamismo, como acciones ricas en movimiento y efectos visuales sofisticados, representa un desafío significativo en el campo de la inteligencia artificial. Lamentablemente, los métodos actuales más avanzados de generación de videos, que se centran principalmente en la generación de texto a video, tienden a producir clips con movimientos mínimos a pesar de mantener una alta fidelidad. Argumentamos que confiar únicamente en instrucciones de texto es insuficiente y subóptimo para la generación de videos. En este artículo, presentamos PixelDance, un enfoque novedoso basado en modelos de difusión que incorpora instrucciones de imagen tanto para el primer como para el último fotograma, junto con instrucciones de texto para la generación de videos. Los resultados experimentales exhaustivos demuestran que PixelDance, entrenado con datos públicos, exhibe una capacidad significativamente mejor para sintetizar videos con escenas complejas y movimientos intrincados, estableciendo un nuevo estándar en la generación de videos.
English
Creating high-dynamic videos such as motion-rich actions and sophisticated
visual effects poses a significant challenge in the field of artificial
intelligence. Unfortunately, current state-of-the-art video generation methods,
primarily focusing on text-to-video generation, tend to produce video clips
with minimal motions despite maintaining high fidelity. We argue that relying
solely on text instructions is insufficient and suboptimal for video
generation. In this paper, we introduce PixelDance, a novel approach based on
diffusion models that incorporates image instructions for both the first and
last frames in conjunction with text instructions for video generation.
Comprehensive experimental results demonstrate that PixelDance trained with
public data exhibits significantly better proficiency in synthesizing videos
with complex scenes and intricate motions, setting a new standard for video
generation.