ChatPaper.aiChatPaper

Omni-Effecten: Uniforme en Ruimtelijk Bestuurbare Generatie van Visuele Effecten

Omni-Effects: Unified and Spatially-Controllable Visual Effects Generation

August 11, 2025
Auteurs: Fangyuan Mao, Aiming Hao, Jintao Chen, Dongxia Liu, Xiaokun Feng, Jiashu Zhu, Meiqi Wu, Chubin Chen, Jiahong Wu, Xiangxiang Chu
cs.AI

Samenvatting

Visuele effecten (VFX) zijn essentiële visuele verbeteringen die fundamenteel zijn voor moderne filmproductie. Hoewel videogeneratiemodellen kostenefficiënte oplossingen bieden voor VFX-productie, worden huidige methoden beperkt door per-effect LoRA-training, wat de generatie tot enkele effecten beperkt. Deze fundamentele beperking belemmert toepassingen die ruimtelijk beheersbare samengestelde effecten vereisen, d.w.z. de gelijktijdige generatie van meerdere effecten op aangewezen locaties. Het integreren van diverse effecten in een uniform raamwerk stuit echter op grote uitdagingen: interferentie door effectvariatie en ruimtelijke onbeheersbaarheid tijdens gezamenlijke training van meerdere VFX. Om deze uitdagingen aan te pakken, stellen we Omni-Effects voor, een eerste uniform raamwerk dat in staat is prompt-gestuurde effecten en ruimtelijk beheersbare samengestelde effecten te genereren. De kern van ons raamwerk bestaat uit twee belangrijke innovaties: (1) LoRA-based Mixture of Experts (LoRA-MoE), dat een groep expert-LoRA's gebruikt en diverse effecten integreert binnen een uniform model, terwijl kruistakeninterferentie effectief wordt gemitigeerd. (2) Spatial-Aware Prompt (SAP) incorporeert ruimtelijke maskerinformatie in de teksttoken, waardoor precieze ruimtelijke controle mogelijk wordt. Bovendien introduceren we een Independent-Information Flow (IIF)-module geïntegreerd binnen de SAP, die de controlesignalen voor individuele effecten isoleert om ongewenste vermenging te voorkomen. Om dit onderzoek te faciliteren, construeren we een uitgebreide VFX-dataset, Omni-VFX, via een nieuwe datacollectiepijplijn die beeldbewerking en First-Last Frame-to-Video (FLF2V)-synthese combineert, en introduceren we een toegewijd VFX-evaluatieraamwerk om modelprestaties te valideren. Uitgebreide experimenten tonen aan dat Omni-Effects precieze ruimtelijke controle en diverse effectgeneratie bereikt, waardoor gebruikers zowel de categorie als de locatie van gewenste effecten kunnen specificeren.
English
Visual effects (VFX) are essential visual enhancements fundamental to modern cinematic production. Although video generation models offer cost-efficient solutions for VFX production, current methods are constrained by per-effect LoRA training, which limits generation to single effects. This fundamental limitation impedes applications that require spatially controllable composite effects, i.e., the concurrent generation of multiple effects at designated locations. However, integrating diverse effects into a unified framework faces major challenges: interference from effect variations and spatial uncontrollability during multi-VFX joint training. To tackle these challenges, we propose Omni-Effects, a first unified framework capable of generating prompt-guided effects and spatially controllable composite effects. The core of our framework comprises two key innovations: (1) LoRA-based Mixture of Experts (LoRA-MoE), which employs a group of expert LoRAs, integrating diverse effects within a unified model while effectively mitigating cross-task interference. (2) Spatial-Aware Prompt (SAP) incorporates spatial mask information into the text token, enabling precise spatial control. Furthermore, we introduce an Independent-Information Flow (IIF) module integrated within the SAP, isolating the control signals corresponding to individual effects to prevent any unwanted blending. To facilitate this research, we construct a comprehensive VFX dataset Omni-VFX via a novel data collection pipeline combining image editing and First-Last Frame-to-Video (FLF2V) synthesis, and introduce a dedicated VFX evaluation framework for validating model performance. Extensive experiments demonstrate that Omni-Effects achieves precise spatial control and diverse effect generation, enabling users to specify both the category and location of desired effects.
PDF583August 12, 2025