Omni-Effects : Génération unifiée et spatialement contrôlable d'effets visuels

papers.abstract

Les effets visuels (VFX) sont des améliorations visuelles essentielles à la production cinématographique moderne. Bien que les modèles de génération vidéo offrent des solutions rentables pour la production de VFX, les méthodes actuelles sont limitées par l'entraînement LoRA par effet, ce qui restreint la génération à des effets uniques. Cette limitation fondamentale entrave les applications nécessitant des effets composites spatialement contrôlables, c'est-à-dire la génération simultanée de multiples effets à des emplacements désignés. Cependant, l'intégration de divers effets dans un cadre unifié pose des défis majeurs : l'interférence des variations d'effets et l'incontrôlabilité spatiale lors de l'entraînement conjoint multi-VFX. Pour relever ces défis, nous proposons Omni-Effects, un premier cadre unifié capable de générer des effets guidés par des prompts et des effets composites spatialement contrôlables. Le cœur de notre cadre repose sur deux innovations clés : (1) le LoRA-based Mixture of Experts (LoRA-MoE), qui utilise un groupe de LoRAs experts, intégrant divers effets dans un modèle unifié tout en atténuant efficacement les interférences inter-tâches. (2) le Spatial-Aware Prompt (SAP) incorpore des informations de masque spatial dans le token texte, permettant un contrôle spatial précis. De plus, nous introduisons un module Independent-Information Flow (IIF) intégré au SAP, isolant les signaux de contrôle correspondant à des effets individuels pour éviter tout mélange indésirable. Pour faciliter cette recherche, nous construisons un ensemble de données VFX complet, Omni-VFX, via une nouvelle pipeline de collecte de données combinant l'édition d'images et la synthèse First-Last Frame-to-Video (FLF2V), et introduisons un cadre d'évaluation VFX dédié pour valider les performances du modèle. Des expériences approfondies démontrent qu'Omni-Effects permet un contrôle spatial précis et une génération d'effets diversifiés, permettant aux utilisateurs de spécifier à la fois la catégorie et l'emplacement des effets souhaités.

English

Visual effects (VFX) are essential visual enhancements fundamental to modern cinematic production. Although video generation models offer cost-efficient solutions for VFX production, current methods are constrained by per-effect LoRA training, which limits generation to single effects. This fundamental limitation impedes applications that require spatially controllable composite effects, i.e., the concurrent generation of multiple effects at designated locations. However, integrating diverse effects into a unified framework faces major challenges: interference from effect variations and spatial uncontrollability during multi-VFX joint training. To tackle these challenges, we propose Omni-Effects, a first unified framework capable of generating prompt-guided effects and spatially controllable composite effects. The core of our framework comprises two key innovations: (1) LoRA-based Mixture of Experts (LoRA-MoE), which employs a group of expert LoRAs, integrating diverse effects within a unified model while effectively mitigating cross-task interference. (2) Spatial-Aware Prompt (SAP) incorporates spatial mask information into the text token, enabling precise spatial control. Furthermore, we introduce an Independent-Information Flow (IIF) module integrated within the SAP, isolating the control signals corresponding to individual effects to prevent any unwanted blending. To facilitate this research, we construct a comprehensive VFX dataset Omni-VFX via a novel data collection pipeline combining image editing and First-Last Frame-to-Video (FLF2V) synthesis, and introduce a dedicated VFX evaluation framework for validating model performance. Extensive experiments demonstrate that Omni-Effects achieves precise spatial control and diverse effect generation, enabling users to specify both the category and location of desired effects.

Omni-Effects : Génération unifiée et spatialement contrôlable d'effets visuels

Omni-Effects: Unified and Spatially-Controllable Visual Effects Generation

papers.abstract

Support