Omni-Effects: Geração Unificada e Espacialmente Controlável de Efeitos Visuais
Omni-Effects: Unified and Spatially-Controllable Visual Effects Generation
August 11, 2025
Autores: Fangyuan Mao, Aiming Hao, Jintao Chen, Dongxia Liu, Xiaokun Feng, Jiashu Zhu, Meiqi Wu, Chubin Chen, Jiahong Wu, Xiangxiang Chu
cs.AI
Resumo
Efeitos visuais (VFX) são aprimoramentos visuais essenciais fundamentais para a produção cinematográfica moderna. Embora os modelos de geração de vídeo ofereçam soluções econômicas para a produção de VFX, os métodos atuais são limitados pelo treinamento de LoRA por efeito, o que restringe a geração a efeitos únicos. Essa limitação fundamental impede aplicações que exigem efeitos compostos espacialmente controláveis, ou seja, a geração simultânea de múltiplos efeitos em locais designados. No entanto, integrar diversos efeitos em um framework unificado enfrenta grandes desafios: interferência de variações de efeitos e falta de controle espacial durante o treinamento conjunto de múltiplos VFX. Para enfrentar esses desafios, propomos o Omni-Effects, o primeiro framework unificado capaz de gerar efeitos guiados por prompts e efeitos compostos espacialmente controláveis. O núcleo do nosso framework compreende duas inovações principais: (1) LoRA-based Mixture of Experts (LoRA-MoE), que emprega um grupo de LoRAs especializados, integrando diversos efeitos em um modelo unificado enquanto mitiga efetivamente a interferência entre tarefas. (2) Spatial-Aware Prompt (SAP) incorpora informações de máscara espacial no token de texto, permitindo controle espacial preciso. Além disso, introduzimos um módulo de Independent-Information Flow (IIF) integrado ao SAP, isolando os sinais de controle correspondentes a efeitos individuais para evitar misturas indesejadas. Para facilitar essa pesquisa, construímos um conjunto de dados abrangente de VFX, o Omni-VFX, por meio de um pipeline de coleta de dados que combina edição de imagem e síntese First-Last Frame-to-Video (FLF2V), e introduzimos um framework de avaliação de VFX dedicado para validar o desempenho do modelo. Experimentos extensivos demonstram que o Omni-Effects alcança controle espacial preciso e geração de efeitos diversos, permitindo que os usuários especifiquem tanto a categoria quanto a localização dos efeitos desejados.
English
Visual effects (VFX) are essential visual enhancements fundamental to modern
cinematic production. Although video generation models offer cost-efficient
solutions for VFX production, current methods are constrained by per-effect
LoRA training, which limits generation to single effects. This fundamental
limitation impedes applications that require spatially controllable composite
effects, i.e., the concurrent generation of multiple effects at designated
locations. However, integrating diverse effects into a unified framework faces
major challenges: interference from effect variations and spatial
uncontrollability during multi-VFX joint training. To tackle these challenges,
we propose Omni-Effects, a first unified framework capable of generating
prompt-guided effects and spatially controllable composite effects. The core of
our framework comprises two key innovations: (1) LoRA-based Mixture of Experts
(LoRA-MoE), which employs a group of expert LoRAs, integrating diverse effects
within a unified model while effectively mitigating cross-task interference.
(2) Spatial-Aware Prompt (SAP) incorporates spatial mask information into the
text token, enabling precise spatial control. Furthermore, we introduce an
Independent-Information Flow (IIF) module integrated within the SAP, isolating
the control signals corresponding to individual effects to prevent any unwanted
blending. To facilitate this research, we construct a comprehensive VFX dataset
Omni-VFX via a novel data collection pipeline combining image editing and
First-Last Frame-to-Video (FLF2V) synthesis, and introduce a dedicated VFX
evaluation framework for validating model performance. Extensive experiments
demonstrate that Omni-Effects achieves precise spatial control and diverse
effect generation, enabling users to specify both the category and location of
desired effects.