Far Danzare i Pixel: Generazione di Video ad Alta Dinamica
Make Pixels Dance: High-Dynamic Video Generation
November 18, 2023
Autori: Yan Zeng, Guoqiang Wei, Jiani Zheng, Jiaxin Zou, Yang Wei, Yuchen Zhang, Hang Li
cs.AI
Abstract
La creazione di video ad alta dinamicità, come azioni ricche di movimento ed effetti visivi sofisticati, rappresenta una sfida significativa nel campo dell'intelligenza artificiale. Purtroppo, gli attuali metodi all'avanguardia per la generazione di video, che si concentrano principalmente sulla generazione da testo a video, tendono a produrre clip con movimenti minimi nonostante mantengano un'elevata fedeltà. Sosteniamo che fare affidamento esclusivamente su istruzioni testuali sia insufficiente e subottimale per la generazione di video. In questo articolo, presentiamo PixelDance, un approccio innovativo basato su modelli di diffusione che incorpora istruzioni visive per il primo e l'ultimo fotogramma insieme a istruzioni testuali per la generazione di video. I risultati sperimentali completi dimostrano che PixelDance, addestrato con dati pubblici, mostra una capacità significativamente migliore nel sintetizzare video con scene complesse e movimenti intricati, stabilendo un nuovo standard per la generazione di video.
English
Creating high-dynamic videos such as motion-rich actions and sophisticated
visual effects poses a significant challenge in the field of artificial
intelligence. Unfortunately, current state-of-the-art video generation methods,
primarily focusing on text-to-video generation, tend to produce video clips
with minimal motions despite maintaining high fidelity. We argue that relying
solely on text instructions is insufficient and suboptimal for video
generation. In this paper, we introduce PixelDance, a novel approach based on
diffusion models that incorporates image instructions for both the first and
last frames in conjunction with text instructions for video generation.
Comprehensive experimental results demonstrate that PixelDance trained with
public data exhibits significantly better proficiency in synthesizing videos
with complex scenes and intricate motions, setting a new standard for video
generation.