VFXMaster: Dynamische Generatie van Visuele Effecten Ontsloten via In-Context Leren
VFXMaster: Unlocking Dynamic Visual Effect Generation via In-Context Learning
October 29, 2025
Auteurs: Baolu Li, Yiming Zhang, Qinghe Wang, Liqian Ma, Xiaoyu Shi, Xintao Wang, Pengfei Wan, Zhenfei Yin, Yunzhi Zhuge, Huchuan Lu, Xu Jia
cs.AI
Samenvatting
Visuele effecten (VFX) zijn cruciaal voor de expressieve kracht van digitale media, maar het genereren ervan blijft een grote uitdaging voor generatieve AI. Gangbare methodes baseren zich vaak op het paradigma van één-LoRA-per-effect, wat resource-intensief is en fundamenteel niet in staat is om te generaliseren naar ongeziene effecten, wat de schaalbaarheid en creatie beperkt. Om deze uitdaging aan te pakken, introduceren we VFXMaster, het eerste verenigde, referentiegebaseerde framework voor VFX-videogeneratie. Het herformuleert effectgeneratie als een in-context leertaak, waardoor het in staat is diverse dynamische effecten van een referentievideo op doelcontent te reproduceren. Bovendien vertoont het opmerkelijke generalisatie naar ongeziene effectcategorieën. Concreet ontwerpen we een in-context conditioneringsstrategie die het model prompt met een referentievoorbeeld. Een in-context aandachtmasker is ontworpen om de essentiële effectattributen precies te ontkoppelen en in te brengen, waardoor een enkel verenigd model de effectimitatie onder de knie krijgt zonder informatielek. Daarnaast stellen we een efficiënt one-shot effectaanpassingsmechanisme voor om de generalisatiecapaciteit voor lastige, ongeziene effecten snel te verbeteren op basis van een enkele door de gebruiker geleverde video. Uitgebreide experimenten tonen aan dat onze methode effectief diverse categorieën effectinformatie imiteert en uitstekende generalisatie vertoont naar effecten buiten het domein. Om toekomstig onderzoek te bevorderen, zullen we onze code, modellen en een uitgebreide dataset vrijgeven aan de gemeenschap.
English
Visual effects (VFX) are crucial to the expressive power of digital media,
yet their creation remains a major challenge for generative AI. Prevailing
methods often rely on the one-LoRA-per-effect paradigm, which is
resource-intensive and fundamentally incapable of generalizing to unseen
effects, thus limiting scalability and creation. To address this challenge, we
introduce VFXMaster, the first unified, reference-based framework for VFX video
generation. It recasts effect generation as an in-context learning task,
enabling it to reproduce diverse dynamic effects from a reference video onto
target content. In addition, it demonstrates remarkable generalization to
unseen effect categories. Specifically, we design an in-context conditioning
strategy that prompts the model with a reference example. An in-context
attention mask is designed to precisely decouple and inject the essential
effect attributes, allowing a single unified model to master the effect
imitation without information leakage. In addition, we propose an efficient
one-shot effect adaptation mechanism to boost generalization capability on
tough unseen effects from a single user-provided video rapidly. Extensive
experiments demonstrate that our method effectively imitates various categories
of effect information and exhibits outstanding generalization to out-of-domain
effects. To foster future research, we will release our code, models, and a
comprehensive dataset to the community.