Omni-Effects: Generazione di Effetti Visivi Unificati e Controllabili Spazialmente
Omni-Effects: Unified and Spatially-Controllable Visual Effects Generation
August 11, 2025
Autori: Fangyuan Mao, Aiming Hao, Jintao Chen, Dongxia Liu, Xiaokun Feng, Jiashu Zhu, Meiqi Wu, Chubin Chen, Jiahong Wu, Xiangxiang Chu
cs.AI
Abstract
Gli effetti visivi (VFX) sono miglioramenti visivi essenziali fondamentali per la produzione cinematografica moderna. Sebbene i modelli di generazione video offrano soluzioni economicamente efficienti per la produzione di VFX, i metodi attuali sono limitati dall'addestramento LoRA per singolo effetto, il quale restringe la generazione a un solo effetto alla volta. Questa limitazione fondamentale ostacola le applicazioni che richiedono effetti compositi controllabili spazialmente, ovvero la generazione simultanea di più effetti in posizioni designate. Tuttavia, l'integrazione di effetti diversi in un framework unificato affronta sfide significative: interferenze dovute alle variazioni degli effetti e mancanza di controllo spaziale durante l'addestramento congiunto di più VFX. Per affrontare queste sfide, proponiamo Omni-Effects, il primo framework unificato in grado di generare effetti guidati da prompt e effetti compositi controllabili spazialmente. Il cuore del nostro framework comprende due innovazioni chiave: (1) LoRA-based Mixture of Experts (LoRA-MoE), che utilizza un gruppo di LoRA esperti, integrando effetti diversi all'interno di un modello unificato mitigando efficacemente le interferenze tra compiti. (2) Spatial-Aware Prompt (SAP) incorpora le informazioni della maschera spaziale nel token di testo, consentendo un controllo spaziale preciso. Inoltre, introduciamo un modulo Independent-Information Flow (IIF) integrato all'interno del SAP, isolando i segnali di controllo corrispondenti ai singoli effetti per prevenire qualsiasi mescolanza indesiderata. Per facilitare questa ricerca, costruiamo un dataset VFX completo, Omni-VFX, tramite una nuova pipeline di raccolta dati che combina l'editing di immagini e la sintesi First-Last Frame-to-Video (FLF2V), e introduciamo un framework di valutazione VFX dedicato per convalidare le prestazioni del modello. Esperimenti estensivi dimostrano che Omni-Effects raggiunge un controllo spaziale preciso e una generazione di effetti diversificata, consentendo agli utenti di specificare sia la categoria che la posizione degli effetti desiderati.
English
Visual effects (VFX) are essential visual enhancements fundamental to modern
cinematic production. Although video generation models offer cost-efficient
solutions for VFX production, current methods are constrained by per-effect
LoRA training, which limits generation to single effects. This fundamental
limitation impedes applications that require spatially controllable composite
effects, i.e., the concurrent generation of multiple effects at designated
locations. However, integrating diverse effects into a unified framework faces
major challenges: interference from effect variations and spatial
uncontrollability during multi-VFX joint training. To tackle these challenges,
we propose Omni-Effects, a first unified framework capable of generating
prompt-guided effects and spatially controllable composite effects. The core of
our framework comprises two key innovations: (1) LoRA-based Mixture of Experts
(LoRA-MoE), which employs a group of expert LoRAs, integrating diverse effects
within a unified model while effectively mitigating cross-task interference.
(2) Spatial-Aware Prompt (SAP) incorporates spatial mask information into the
text token, enabling precise spatial control. Furthermore, we introduce an
Independent-Information Flow (IIF) module integrated within the SAP, isolating
the control signals corresponding to individual effects to prevent any unwanted
blending. To facilitate this research, we construct a comprehensive VFX dataset
Omni-VFX via a novel data collection pipeline combining image editing and
First-Last Frame-to-Video (FLF2V) synthesis, and introduce a dedicated VFX
evaluation framework for validating model performance. Extensive experiments
demonstrate that Omni-Effects achieves precise spatial control and diverse
effect generation, enabling users to specify both the category and location of
desired effects.