Far Danzare i Pixel: Generazione di Video ad Alta Dinamica

Abstract

La creazione di video ad alta dinamicità, come azioni ricche di movimento ed effetti visivi sofisticati, rappresenta una sfida significativa nel campo dell'intelligenza artificiale. Purtroppo, gli attuali metodi all'avanguardia per la generazione di video, che si concentrano principalmente sulla generazione da testo a video, tendono a produrre clip con movimenti minimi nonostante mantengano un'elevata fedeltà. Sosteniamo che fare affidamento esclusivamente su istruzioni testuali sia insufficiente e subottimale per la generazione di video. In questo articolo, presentiamo PixelDance, un approccio innovativo basato su modelli di diffusione che incorpora istruzioni visive per il primo e l'ultimo fotogramma insieme a istruzioni testuali per la generazione di video. I risultati sperimentali completi dimostrano che PixelDance, addestrato con dati pubblici, mostra una capacità significativamente migliore nel sintetizzare video con scene complesse e movimenti intricati, stabilendo un nuovo standard per la generazione di video.

English

Creating high-dynamic videos such as motion-rich actions and sophisticated visual effects poses a significant challenge in the field of artificial intelligence. Unfortunately, current state-of-the-art video generation methods, primarily focusing on text-to-video generation, tend to produce video clips with minimal motions despite maintaining high fidelity. We argue that relying solely on text instructions is insufficient and suboptimal for video generation. In this paper, we introduce PixelDance, a novel approach based on diffusion models that incorporates image instructions for both the first and last frames in conjunction with text instructions for video generation. Comprehensive experimental results demonstrate that PixelDance trained with public data exhibits significantly better proficiency in synthesizing videos with complex scenes and intricate motions, setting a new standard for video generation.

Far Danzare i Pixel: Generazione di Video ad Alta Dinamica

Make Pixels Dance: High-Dynamic Video Generation

Abstract

Support