VFXMaster: Раскрытие потенциала динамической генерации визуальных эффектов с помощью контекстного обучения
VFXMaster: Unlocking Dynamic Visual Effect Generation via In-Context Learning
October 29, 2025
Авторы: Baolu Li, Yiming Zhang, Qinghe Wang, Liqian Ma, Xiaoyu Shi, Xintao Wang, Pengfei Wan, Zhenfei Yin, Yunzhi Zhuge, Huchuan Lu, Xu Jia
cs.AI
Аннотация
Визуальные эффекты (VFX) играют ключевую роль в выразительности цифровых медиа, однако их создание остается серьезной проблемой для генеративного искусственного интеллекта. Преобладающие методы часто опираются на парадигму «один LoRA — один эффект», что ресурсозатратно и в принципе не способно обобщаться на неизвестные эффекты, ограничивая масштабируемость и творческий процесс. Для решения этой проблемы мы представляем VFXMaster — первую унифицированную референсную систему для генерации видео с VFX. Она переосмысливает генерацию эффектов как задачу обучения в контексте, позволяя воспроизводить разнообразные динамические эффекты из референсного видео на целевой контент. Кроме того, система демонстрирует выдающуюся способность к обобщению на неизвестные категории эффектов. В частности, мы разработали стратегию контекстного кондиционирования, которая предоставляет модели пример для подражания. Маска контекстного внимания позволяет точно разделять и внедрять ключевые атрибуты эффекта, давая единой унифицированной модели возможность освоить имитацию эффектов без утечки информации. Дополнительно мы предлагаем эффективный механим односнимковой адаптации эффектов для быстрого повышения способности к обобщению на сложные неизвестные эффекты на основе всего одного предоставленного пользователем видео. Многочисленные эксперименты подтверждают, что наш метод эффективно имитирует различные категории эффектов и демонстрирует превосходное обобщение на эффекты вне домена. Для стимулирования будущих исследований мы опубликуем наш код, модели и обширный набор данных для научного сообщества.
English
Visual effects (VFX) are crucial to the expressive power of digital media,
yet their creation remains a major challenge for generative AI. Prevailing
methods often rely on the one-LoRA-per-effect paradigm, which is
resource-intensive and fundamentally incapable of generalizing to unseen
effects, thus limiting scalability and creation. To address this challenge, we
introduce VFXMaster, the first unified, reference-based framework for VFX video
generation. It recasts effect generation as an in-context learning task,
enabling it to reproduce diverse dynamic effects from a reference video onto
target content. In addition, it demonstrates remarkable generalization to
unseen effect categories. Specifically, we design an in-context conditioning
strategy that prompts the model with a reference example. An in-context
attention mask is designed to precisely decouple and inject the essential
effect attributes, allowing a single unified model to master the effect
imitation without information leakage. In addition, we propose an efficient
one-shot effect adaptation mechanism to boost generalization capability on
tough unseen effects from a single user-provided video rapidly. Extensive
experiments demonstrate that our method effectively imitates various categories
of effect information and exhibits outstanding generalization to out-of-domain
effects. To foster future research, we will release our code, models, and a
comprehensive dataset to the community.