ChatPaper.aiChatPaper

VFXMaster: Sbloccare la Generazione Dinamica di Effetti Visivi tramite Apprendimento In-Contesto

VFXMaster: Unlocking Dynamic Visual Effect Generation via In-Context Learning

October 29, 2025
Autori: Baolu Li, Yiming Zhang, Qinghe Wang, Liqian Ma, Xiaoyu Shi, Xintao Wang, Pengfei Wan, Zhenfei Yin, Yunzhi Zhuge, Huchuan Lu, Xu Jia
cs.AI

Abstract

Gli effetti visivi (VFX) sono cruciali per il potere espressivo dei media digitali, tuttavia la loro creazione rimane una sfida significativa per l'IA generativa. I metodi predominanti si basano spesso sul paradigma "un-LoRA-per-effetto", che è dispensioso in termini di risorse e fondamentalmente incapace di generalizzare a effetti non visti, limitando così scalabilità e creatività. Per affrontare questa sfida, presentiamo VFXMaster, il primo framework unificato e reference-based per la generazione di video VFX. Esso riformula la generazione di effetti come un task di in-context learning, consentendo di riprodurre diversi effetti dinamici da un video di riferimento su contenuti target. Inoltre, dimostra una notevole generalizzazione a categorie di effetti non viste. Nello specifico, progettiamo una strategia di condizionamento in-context che fornisce al modello un esempio di riferimento. Una maschera di attenzione in-context è progettata per decopiare e iniettare con precisione gli attributi essenziali dell'effetto, permettendo a un singolo modello unificato di padroneggiare l'imitazione dell'effetto senza dispersioni informative. In aggiunta, proponiamo un efficiente meccanismo di adattamento one-shot per potenziare rapidamente la capacità di generalizzazione su effetti non visti complessi partendo da un singolo video fornito dall'utente. Esperimenti estensivi dimostrano che il nostro metodo imita efficacemente varie categorie di informazioni sugli effetti ed esibisce un'eccezionale generalizzazione a effetti out-of-domain. Per promuovere la ricerca futura, rilasceremo alla comunità il nostro codice, i modelli e un dataset completo.
English
Visual effects (VFX) are crucial to the expressive power of digital media, yet their creation remains a major challenge for generative AI. Prevailing methods often rely on the one-LoRA-per-effect paradigm, which is resource-intensive and fundamentally incapable of generalizing to unseen effects, thus limiting scalability and creation. To address this challenge, we introduce VFXMaster, the first unified, reference-based framework for VFX video generation. It recasts effect generation as an in-context learning task, enabling it to reproduce diverse dynamic effects from a reference video onto target content. In addition, it demonstrates remarkable generalization to unseen effect categories. Specifically, we design an in-context conditioning strategy that prompts the model with a reference example. An in-context attention mask is designed to precisely decouple and inject the essential effect attributes, allowing a single unified model to master the effect imitation without information leakage. In addition, we propose an efficient one-shot effect adaptation mechanism to boost generalization capability on tough unseen effects from a single user-provided video rapidly. Extensive experiments demonstrate that our method effectively imitates various categories of effect information and exhibits outstanding generalization to out-of-domain effects. To foster future research, we will release our code, models, and a comprehensive dataset to the community.
PDF321December 2, 2025