Omni-Effects : Génération unifiée et spatialement contrôlable d'effets visuels
Omni-Effects: Unified and Spatially-Controllable Visual Effects Generation
August 11, 2025
papers.authors: Fangyuan Mao, Aiming Hao, Jintao Chen, Dongxia Liu, Xiaokun Feng, Jiashu Zhu, Meiqi Wu, Chubin Chen, Jiahong Wu, Xiangxiang Chu
cs.AI
papers.abstract
Les effets visuels (VFX) sont des améliorations visuelles essentielles à la production cinématographique moderne. Bien que les modèles de génération vidéo offrent des solutions rentables pour la production de VFX, les méthodes actuelles sont limitées par l'entraînement LoRA par effet, ce qui restreint la génération à des effets uniques. Cette limitation fondamentale entrave les applications nécessitant des effets composites spatialement contrôlables, c'est-à-dire la génération simultanée de multiples effets à des emplacements désignés. Cependant, l'intégration de divers effets dans un cadre unifié pose des défis majeurs : l'interférence des variations d'effets et l'incontrôlabilité spatiale lors de l'entraînement conjoint multi-VFX. Pour relever ces défis, nous proposons Omni-Effects, un premier cadre unifié capable de générer des effets guidés par des prompts et des effets composites spatialement contrôlables. Le cœur de notre cadre repose sur deux innovations clés : (1) le LoRA-based Mixture of Experts (LoRA-MoE), qui utilise un groupe de LoRAs experts, intégrant divers effets dans un modèle unifié tout en atténuant efficacement les interférences inter-tâches. (2) le Spatial-Aware Prompt (SAP) incorpore des informations de masque spatial dans le token texte, permettant un contrôle spatial précis. De plus, nous introduisons un module Independent-Information Flow (IIF) intégré au SAP, isolant les signaux de contrôle correspondant à des effets individuels pour éviter tout mélange indésirable. Pour faciliter cette recherche, nous construisons un ensemble de données VFX complet, Omni-VFX, via une nouvelle pipeline de collecte de données combinant l'édition d'images et la synthèse First-Last Frame-to-Video (FLF2V), et introduisons un cadre d'évaluation VFX dédié pour valider les performances du modèle. Des expériences approfondies démontrent qu'Omni-Effects permet un contrôle spatial précis et une génération d'effets diversifiés, permettant aux utilisateurs de spécifier à la fois la catégorie et l'emplacement des effets souhaités.
English
Visual effects (VFX) are essential visual enhancements fundamental to modern
cinematic production. Although video generation models offer cost-efficient
solutions for VFX production, current methods are constrained by per-effect
LoRA training, which limits generation to single effects. This fundamental
limitation impedes applications that require spatially controllable composite
effects, i.e., the concurrent generation of multiple effects at designated
locations. However, integrating diverse effects into a unified framework faces
major challenges: interference from effect variations and spatial
uncontrollability during multi-VFX joint training. To tackle these challenges,
we propose Omni-Effects, a first unified framework capable of generating
prompt-guided effects and spatially controllable composite effects. The core of
our framework comprises two key innovations: (1) LoRA-based Mixture of Experts
(LoRA-MoE), which employs a group of expert LoRAs, integrating diverse effects
within a unified model while effectively mitigating cross-task interference.
(2) Spatial-Aware Prompt (SAP) incorporates spatial mask information into the
text token, enabling precise spatial control. Furthermore, we introduce an
Independent-Information Flow (IIF) module integrated within the SAP, isolating
the control signals corresponding to individual effects to prevent any unwanted
blending. To facilitate this research, we construct a comprehensive VFX dataset
Omni-VFX via a novel data collection pipeline combining image editing and
First-Last Frame-to-Video (FLF2V) synthesis, and introduce a dedicated VFX
evaluation framework for validating model performance. Extensive experiments
demonstrate that Omni-Effects achieves precise spatial control and diverse
effect generation, enabling users to specify both the category and location of
desired effects.