Omni-Effects: Унифицированная и пространственно-управляемая генерация визуальных эффектов
Omni-Effects: Unified and Spatially-Controllable Visual Effects Generation
August 11, 2025
Авторы: Fangyuan Mao, Aiming Hao, Jintao Chen, Dongxia Liu, Xiaokun Feng, Jiashu Zhu, Meiqi Wu, Chubin Chen, Jiahong Wu, Xiangxiang Chu
cs.AI
Аннотация
Визуальные эффекты (VFX) являются важнейшими визуальными улучшениями, фундаментальными для современного кинематографического производства. Хотя модели генерации видео предлагают экономически эффективные решения для создания VFX, текущие методы ограничены обучением LoRA для каждого эффекта, что позволяет генерировать только одиночные эффекты. Это фундаментальное ограничение препятствует применению в задачах, требующих пространственно управляемых составных эффектов, то есть одновременной генерации нескольких эффектов в заданных местах. Однако интеграция разнообразных эффектов в единую структуру сталкивается с серьезными проблемами: интерференцией из-за вариаций эффектов и отсутствием пространственного контроля при совместном обучении нескольких VFX. Для решения этих проблем мы предлагаем Omni-Effects — первую унифицированную структуру, способную генерировать эффекты, управляемые текстовыми запросами, и пространственно контролируемые составные эффекты. Основу нашей структуры составляют два ключевых нововведения: (1) LoRA-based Mixture of Experts (LoRA-MoE), который использует группу экспертных LoRA, интегрируя разнообразные эффекты в единую модель и эффективно минимизируя межзадачные помехи. (2) Spatial-Aware Prompt (SAP), который включает информацию о пространственной маске в текстовый токен, обеспечивая точный пространственный контроль. Кроме того, мы вводим модуль Independent-Information Flow (IIF), интегрированный в SAP, который изолирует управляющие сигналы, соответствующие отдельным эффектам, чтобы предотвратить нежелательное смешение. Для поддержки этого исследования мы создаем всеобъемлющий набор данных Omni-VFX с помощью нового конвейера сбора данных, сочетающего редактирование изображений и синтез First-Last Frame-to-Video (FLF2V), а также представляем специализированную структуру оценки VFX для проверки производительности модели. Многочисленные эксперименты демонстрируют, что Omni-Effects обеспечивает точный пространственный контроль и генерацию разнообразных эффектов, позволяя пользователям указывать как категорию, так и местоположение желаемых эффектов.
English
Visual effects (VFX) are essential visual enhancements fundamental to modern
cinematic production. Although video generation models offer cost-efficient
solutions for VFX production, current methods are constrained by per-effect
LoRA training, which limits generation to single effects. This fundamental
limitation impedes applications that require spatially controllable composite
effects, i.e., the concurrent generation of multiple effects at designated
locations. However, integrating diverse effects into a unified framework faces
major challenges: interference from effect variations and spatial
uncontrollability during multi-VFX joint training. To tackle these challenges,
we propose Omni-Effects, a first unified framework capable of generating
prompt-guided effects and spatially controllable composite effects. The core of
our framework comprises two key innovations: (1) LoRA-based Mixture of Experts
(LoRA-MoE), which employs a group of expert LoRAs, integrating diverse effects
within a unified model while effectively mitigating cross-task interference.
(2) Spatial-Aware Prompt (SAP) incorporates spatial mask information into the
text token, enabling precise spatial control. Furthermore, we introduce an
Independent-Information Flow (IIF) module integrated within the SAP, isolating
the control signals corresponding to individual effects to prevent any unwanted
blending. To facilitate this research, we construct a comprehensive VFX dataset
Omni-VFX via a novel data collection pipeline combining image editing and
First-Last Frame-to-Video (FLF2V) synthesis, and introduce a dedicated VFX
evaluation framework for validating model performance. Extensive experiments
demonstrate that Omni-Effects achieves precise spatial control and diverse
effect generation, enabling users to specify both the category and location of
desired effects.