Haz que los píxeles bailen: Generación de video de alto rango dinámico

Resumen

La creación de videos de alto dinamismo, como acciones ricas en movimiento y efectos visuales sofisticados, representa un desafío significativo en el campo de la inteligencia artificial. Lamentablemente, los métodos actuales más avanzados de generación de videos, que se centran principalmente en la generación de texto a video, tienden a producir clips con movimientos mínimos a pesar de mantener una alta fidelidad. Argumentamos que confiar únicamente en instrucciones de texto es insuficiente y subóptimo para la generación de videos. En este artículo, presentamos PixelDance, un enfoque novedoso basado en modelos de difusión que incorpora instrucciones de imagen tanto para el primer como para el último fotograma, junto con instrucciones de texto para la generación de videos. Los resultados experimentales exhaustivos demuestran que PixelDance, entrenado con datos públicos, exhibe una capacidad significativamente mejor para sintetizar videos con escenas complejas y movimientos intrincados, estableciendo un nuevo estándar en la generación de videos.

English

Creating high-dynamic videos such as motion-rich actions and sophisticated visual effects poses a significant challenge in the field of artificial intelligence. Unfortunately, current state-of-the-art video generation methods, primarily focusing on text-to-video generation, tend to produce video clips with minimal motions despite maintaining high fidelity. We argue that relying solely on text instructions is insufficient and suboptimal for video generation. In this paper, we introduce PixelDance, a novel approach based on diffusion models that incorporates image instructions for both the first and last frames in conjunction with text instructions for video generation. Comprehensive experimental results demonstrate that PixelDance trained with public data exhibits significantly better proficiency in synthesizing videos with complex scenes and intricate motions, setting a new standard for video generation.

Haz que los píxeles bailen: Generación de video de alto rango dinámico

Make Pixels Dance: High-Dynamic Video Generation

Resumen

Support