Omni-Effekte: Vereinheitlichte und räumlich steuerbare Erzeugung visueller Effekte
Omni-Effects: Unified and Spatially-Controllable Visual Effects Generation
August 11, 2025
papers.authors: Fangyuan Mao, Aiming Hao, Jintao Chen, Dongxia Liu, Xiaokun Feng, Jiashu Zhu, Meiqi Wu, Chubin Chen, Jiahong Wu, Xiangxiang Chu
cs.AI
papers.abstract
Visuelle Effekte (VFX) sind wesentliche visuelle Verbesserungen, die für die moderne Filmproduktion grundlegend sind. Obwohl Videogenerierungsmodelle kosteneffiziente Lösungen für die VFX-Produktion bieten, sind aktuelle Methoden durch das Training von LoRA pro Effekt eingeschränkt, was die Generierung auf einzelne Effekte beschränkt. Diese grundlegende Einschränkung behindert Anwendungen, die räumlich kontrollierbare zusammengesetzte Effekte erfordern, d.h. die gleichzeitige Generierung mehrerer Effekte an festgelegten Positionen. Die Integration verschiedener Effekte in ein einheitliches Framework steht jedoch vor großen Herausforderungen: Interferenzen durch Effektvariationen und räumliche Unkontrollierbarkeit während des gemeinsamen Trainings mehrerer VFX. Um diese Herausforderungen zu bewältigen, schlagen wir Omni-Effects vor, ein erstes einheitliches Framework, das in der Lage ist, prompt-gesteuerte Effekte und räumlich kontrollierbare zusammengesetzte Effekte zu generieren. Der Kern unseres Frameworks besteht aus zwei Schlüsselinnovationen: (1) LoRA-basierte Mixture of Experts (LoRA-MoE), die eine Gruppe von Experten-LoRAs einsetzt, um verschiedene Effekte in einem einheitlichen Modell zu integrieren und gleichzeitig Interferenzen zwischen den Aufgaben effektiv zu minimieren. (2) Spatial-Aware Prompt (SAP) integriert räumliche Maskeninformationen in den Text-Token und ermöglicht so eine präzise räumliche Steuerung. Darüber hinaus führen wir ein Independent-Information Flow (IIF)-Modul ein, das in das SAP integriert ist und die Steuersignale für einzelne Effekte isoliert, um unerwünschte Vermischungen zu verhindern. Um diese Forschung zu unterstützen, erstellen wir einen umfassenden VFX-Datensatz Omni-VFX über eine neuartige Datenerfassungspipeline, die Bildbearbeitung und First-Last Frame-to-Video (FLF2V)-Synthese kombiniert, und führen ein spezielles VFX-Bewertungsframework ein, um die Modellleistung zu validieren. Umfangreiche Experimente zeigen, dass Omni-Effects eine präzise räumliche Kontrolle und die Generierung vielfältiger Effekte ermöglicht, wodurch Benutzer sowohl die Kategorie als auch den Ort der gewünschten Effekte spezifizieren können.
English
Visual effects (VFX) are essential visual enhancements fundamental to modern
cinematic production. Although video generation models offer cost-efficient
solutions for VFX production, current methods are constrained by per-effect
LoRA training, which limits generation to single effects. This fundamental
limitation impedes applications that require spatially controllable composite
effects, i.e., the concurrent generation of multiple effects at designated
locations. However, integrating diverse effects into a unified framework faces
major challenges: interference from effect variations and spatial
uncontrollability during multi-VFX joint training. To tackle these challenges,
we propose Omni-Effects, a first unified framework capable of generating
prompt-guided effects and spatially controllable composite effects. The core of
our framework comprises two key innovations: (1) LoRA-based Mixture of Experts
(LoRA-MoE), which employs a group of expert LoRAs, integrating diverse effects
within a unified model while effectively mitigating cross-task interference.
(2) Spatial-Aware Prompt (SAP) incorporates spatial mask information into the
text token, enabling precise spatial control. Furthermore, we introduce an
Independent-Information Flow (IIF) module integrated within the SAP, isolating
the control signals corresponding to individual effects to prevent any unwanted
blending. To facilitate this research, we construct a comprehensive VFX dataset
Omni-VFX via a novel data collection pipeline combining image editing and
First-Last Frame-to-Video (FLF2V) synthesis, and introduce a dedicated VFX
evaluation framework for validating model performance. Extensive experiments
demonstrate that Omni-Effects achieves precise spatial control and diverse
effect generation, enabling users to specify both the category and location of
desired effects.