ChatPaper.aiChatPaper

Omni-Effekte: Vereinheitlichte und räumlich steuerbare Erzeugung visueller Effekte

Omni-Effects: Unified and Spatially-Controllable Visual Effects Generation

August 11, 2025
papers.authors: Fangyuan Mao, Aiming Hao, Jintao Chen, Dongxia Liu, Xiaokun Feng, Jiashu Zhu, Meiqi Wu, Chubin Chen, Jiahong Wu, Xiangxiang Chu
cs.AI

papers.abstract

Visuelle Effekte (VFX) sind wesentliche visuelle Verbesserungen, die für die moderne Filmproduktion grundlegend sind. Obwohl Videogenerierungsmodelle kosteneffiziente Lösungen für die VFX-Produktion bieten, sind aktuelle Methoden durch das Training von LoRA pro Effekt eingeschränkt, was die Generierung auf einzelne Effekte beschränkt. Diese grundlegende Einschränkung behindert Anwendungen, die räumlich kontrollierbare zusammengesetzte Effekte erfordern, d.h. die gleichzeitige Generierung mehrerer Effekte an festgelegten Positionen. Die Integration verschiedener Effekte in ein einheitliches Framework steht jedoch vor großen Herausforderungen: Interferenzen durch Effektvariationen und räumliche Unkontrollierbarkeit während des gemeinsamen Trainings mehrerer VFX. Um diese Herausforderungen zu bewältigen, schlagen wir Omni-Effects vor, ein erstes einheitliches Framework, das in der Lage ist, prompt-gesteuerte Effekte und räumlich kontrollierbare zusammengesetzte Effekte zu generieren. Der Kern unseres Frameworks besteht aus zwei Schlüsselinnovationen: (1) LoRA-basierte Mixture of Experts (LoRA-MoE), die eine Gruppe von Experten-LoRAs einsetzt, um verschiedene Effekte in einem einheitlichen Modell zu integrieren und gleichzeitig Interferenzen zwischen den Aufgaben effektiv zu minimieren. (2) Spatial-Aware Prompt (SAP) integriert räumliche Maskeninformationen in den Text-Token und ermöglicht so eine präzise räumliche Steuerung. Darüber hinaus führen wir ein Independent-Information Flow (IIF)-Modul ein, das in das SAP integriert ist und die Steuersignale für einzelne Effekte isoliert, um unerwünschte Vermischungen zu verhindern. Um diese Forschung zu unterstützen, erstellen wir einen umfassenden VFX-Datensatz Omni-VFX über eine neuartige Datenerfassungspipeline, die Bildbearbeitung und First-Last Frame-to-Video (FLF2V)-Synthese kombiniert, und führen ein spezielles VFX-Bewertungsframework ein, um die Modellleistung zu validieren. Umfangreiche Experimente zeigen, dass Omni-Effects eine präzise räumliche Kontrolle und die Generierung vielfältiger Effekte ermöglicht, wodurch Benutzer sowohl die Kategorie als auch den Ort der gewünschten Effekte spezifizieren können.
English
Visual effects (VFX) are essential visual enhancements fundamental to modern cinematic production. Although video generation models offer cost-efficient solutions for VFX production, current methods are constrained by per-effect LoRA training, which limits generation to single effects. This fundamental limitation impedes applications that require spatially controllable composite effects, i.e., the concurrent generation of multiple effects at designated locations. However, integrating diverse effects into a unified framework faces major challenges: interference from effect variations and spatial uncontrollability during multi-VFX joint training. To tackle these challenges, we propose Omni-Effects, a first unified framework capable of generating prompt-guided effects and spatially controllable composite effects. The core of our framework comprises two key innovations: (1) LoRA-based Mixture of Experts (LoRA-MoE), which employs a group of expert LoRAs, integrating diverse effects within a unified model while effectively mitigating cross-task interference. (2) Spatial-Aware Prompt (SAP) incorporates spatial mask information into the text token, enabling precise spatial control. Furthermore, we introduce an Independent-Information Flow (IIF) module integrated within the SAP, isolating the control signals corresponding to individual effects to prevent any unwanted blending. To facilitate this research, we construct a comprehensive VFX dataset Omni-VFX via a novel data collection pipeline combining image editing and First-Last Frame-to-Video (FLF2V) synthesis, and introduce a dedicated VFX evaluation framework for validating model performance. Extensive experiments demonstrate that Omni-Effects achieves precise spatial control and diverse effect generation, enabling users to specify both the category and location of desired effects.
PDF523August 12, 2025