ChatPaper.aiChatPaper

Créateur VFX : Génération d'Effets Visuels Animés avec Transformateur de Diffusion Contrôlable

VFX Creator: Animated Visual Effect Generation with Controllable Diffusion Transformer

February 9, 2025
Auteurs: Xinyu Liu, Ailing Zeng, Wei Xue, Harry Yang, Wenhan Luo, Qifeng Liu, Yike Guo
cs.AI

Résumé

La création de magie et d'illusions est l'un des aspects les plus passionnants du cinéma, les effets visuels (VFX) étant le moteur derrière des expériences cinématographiques inoubliables. Alors que les récentes avancées en intelligence artificielle générative ont permis des progrès dans la synthèse d'images et de vidéos génériques, le domaine de la génération de VFX contrôlables reste relativement peu exploré. Dans ce travail, nous proposons un nouveau paradigme pour la génération de VFX animés sous forme d'animation d'images, où des effets dynamiques sont générés à partir de descriptions textuelles conviviales et d'images de référence statiques. Notre travail apporte deux contributions principales : (i) Open-VFX, le premier ensemble de données vidéo VFX de haute qualité couvrant 15 catégories d'effets divers, annoté avec des descriptions textuelles, des masques de segmentation d'instances pour le conditionnement spatial, et des horodatages de début et de fin pour le contrôle temporel. (ii) VFX Creator, un cadre de génération de VFX contrôlable simple mais efficace basé sur un Transformateur de Diffusion Vidéo. Le modèle intègre un adaptateur LoRA contrôlable spatialement et temporellement, nécessitant un nombre minimal de vidéos d'entraînement. En particulier, un module de contrôle de masque plug-and-play permet une manipulation spatiale au niveau de l'instance, tandis que les horodatages de mouvement de début et de fin tokenisés intégrés dans le processus de diffusion, aux côtés de l'encodeur de texte, permettent un contrôle temporel précis sur la synchronisation et le rythme des effets. Des expériences approfondies sur l'ensemble de test Open-VFX démontrent la supériorité du système proposé dans la génération d'effets réalistes et dynamiques, atteignant des performances de pointe et une capacité de généralisation en termes de contrôlabilité spatiale et temporelle. De plus, nous introduisons une mesure spécialisée pour évaluer la précision du contrôle temporel. En combinant les techniques traditionnelles de VFX avec des approches génératives, VFX Creator ouvre de nouvelles possibilités pour une génération d'effets vidéo efficace et de haute qualité, rendant les VFX avancés accessibles à un public plus large.
English
Crafting magic and illusions is one of the most thrilling aspects of filmmaking, with visual effects (VFX) serving as the powerhouse behind unforgettable cinematic experiences. While recent advances in generative artificial intelligence have driven progress in generic image and video synthesis, the domain of controllable VFX generation remains relatively underexplored. In this work, we propose a novel paradigm for animated VFX generation as image animation, where dynamic effects are generated from user-friendly textual descriptions and static reference images. Our work makes two primary contributions: (i) Open-VFX, the first high-quality VFX video dataset spanning 15 diverse effect categories, annotated with textual descriptions, instance segmentation masks for spatial conditioning, and start-end timestamps for temporal control. (ii) VFX Creator, a simple yet effective controllable VFX generation framework based on a Video Diffusion Transformer. The model incorporates a spatial and temporal controllable LoRA adapter, requiring minimal training videos. Specifically, a plug-and-play mask control module enables instance-level spatial manipulation, while tokenized start-end motion timestamps embedded in the diffusion process, alongside the text encoder, allow precise temporal control over effect timing and pace. Extensive experiments on the Open-VFX test set demonstrate the superiority of the proposed system in generating realistic and dynamic effects, achieving state-of-the-art performance and generalization ability in both spatial and temporal controllability. Furthermore, we introduce a specialized metric to evaluate the precision of temporal control. By bridging traditional VFX techniques with generative approaches, VFX Creator unlocks new possibilities for efficient and high-quality video effect generation, making advanced VFX accessible to a broader audience.

Summary

AI-Generated Summary

PDF82February 14, 2025