VFXMaster: Sbloccare la Generazione Dinamica di Effetti Visivi tramite Apprendimento In-Contesto
VFXMaster: Unlocking Dynamic Visual Effect Generation via In-Context Learning
October 29, 2025
Autori: Baolu Li, Yiming Zhang, Qinghe Wang, Liqian Ma, Xiaoyu Shi, Xintao Wang, Pengfei Wan, Zhenfei Yin, Yunzhi Zhuge, Huchuan Lu, Xu Jia
cs.AI
Abstract
Gli effetti visivi (VFX) sono cruciali per il potere espressivo dei media digitali,
tuttavia la loro creazione rimane una sfida significativa per l'IA generativa. I metodi
predominanti si basano spesso sul paradigma "un-LoRA-per-effetto", che è
dispensioso in termini di risorse e fondamentalmente incapace di generalizzare a effetti
non visti, limitando così scalabilità e creatività. Per affrontare questa sfida,
presentiamo VFXMaster, il primo framework unificato e reference-based per la generazione
di video VFX. Esso riformula la generazione di effetti come un task di in-context learning,
consentendo di riprodurre diversi effetti dinamici da un video di riferimento su contenuti
target. Inoltre, dimostra una notevole generalizzazione a categorie di effetti non viste.
Nello specifico, progettiamo una strategia di condizionamento in-context che fornisce
al modello un esempio di riferimento. Una maschera di attenzione in-context è progettata
per decopiare e iniettare con precisione gli attributi essenziali dell'effetto,
permettendo a un singolo modello unificato di padroneggiare l'imitazione dell'effetto
senza dispersioni informative. In aggiunta, proponiamo un efficiente meccanismo di
adattamento one-shot per potenziare rapidamente la capacità di generalizzazione su
effetti non visti complessi partendo da un singolo video fornito dall'utente.
Esperimenti estensivi dimostrano che il nostro metodo imita efficacemente varie categorie
di informazioni sugli effetti ed esibisce un'eccezionale generalizzazione a effetti
out-of-domain. Per promuovere la ricerca futura, rilasceremo alla comunità il nostro
codice, i modelli e un dataset completo.
English
Visual effects (VFX) are crucial to the expressive power of digital media,
yet their creation remains a major challenge for generative AI. Prevailing
methods often rely on the one-LoRA-per-effect paradigm, which is
resource-intensive and fundamentally incapable of generalizing to unseen
effects, thus limiting scalability and creation. To address this challenge, we
introduce VFXMaster, the first unified, reference-based framework for VFX video
generation. It recasts effect generation as an in-context learning task,
enabling it to reproduce diverse dynamic effects from a reference video onto
target content. In addition, it demonstrates remarkable generalization to
unseen effect categories. Specifically, we design an in-context conditioning
strategy that prompts the model with a reference example. An in-context
attention mask is designed to precisely decouple and inject the essential
effect attributes, allowing a single unified model to master the effect
imitation without information leakage. In addition, we propose an efficient
one-shot effect adaptation mechanism to boost generalization capability on
tough unseen effects from a single user-provided video rapidly. Extensive
experiments demonstrate that our method effectively imitates various categories
of effect information and exhibits outstanding generalization to out-of-domain
effects. To foster future research, we will release our code, models, and a
comprehensive dataset to the community.