VFXMaster : Libérer la génération dynamique d'effets visuels par apprentissage en contexte
VFXMaster: Unlocking Dynamic Visual Effect Generation via In-Context Learning
October 29, 2025
papers.authors: Baolu Li, Yiming Zhang, Qinghe Wang, Liqian Ma, Xiaoyu Shi, Xintao Wang, Pengfei Wan, Zhenfei Yin, Yunzhi Zhuge, Huchuan Lu, Xu Jia
cs.AI
papers.abstract
Les effets visuels (VFX) sont cruciaux pour la puissance expressive des médias numériques, mais leur création reste un défi majeur pour l'IA générative. Les méthodes prédominantes reposent souvent sur le paradigme "un-LoRA-par-effet", qui est gourmand en ressources et fondamentalement incapable de généraliser à des effets non vus, limitant ainsi l'évolutivité et la création. Pour relever ce défi, nous présentons VFXMaster, le premier cadre unifié et basé sur une référence pour la génération de vidéos VFX. Il reformule la génération d'effets comme une tâche d'apprentissage en contexte, lui permettant de reproduire divers effets dynamiques d'une vidéo de référence sur un contenu cible. De plus, il démontre une généralisation remarquable à des catégories d'effets non vues. Spécifiquement, nous concevons une stratégie de conditionnement en contexte qui sollicite le modèle avec un exemple de référence. Un masque d'attention en contexte est conçu pour découpler et injecter précisément les attributs essentiels de l'effet, permettant à un modèle unifié unique de maîtriser l'imitation d'effet sans fuite d'information. Par ailleurs, nous proposons un mécanisme d'adaptation d'effet efficace en un seul exemple pour booster rapidement la capacité de généralisation sur des effets non vus difficiles à partir d'une seule vidéo fournie par l'utilisateur. Des expériences approfondies démontrent que notre méthode imite efficacement diverses catégories d'information d'effet et présente une généralisation exceptionnelle à des effets hors domaine. Pour favoriser les recherches futures, nous mettrons à disposition notre code, nos modèles et un jeu de données complet auprès de la communauté.
English
Visual effects (VFX) are crucial to the expressive power of digital media,
yet their creation remains a major challenge for generative AI. Prevailing
methods often rely on the one-LoRA-per-effect paradigm, which is
resource-intensive and fundamentally incapable of generalizing to unseen
effects, thus limiting scalability and creation. To address this challenge, we
introduce VFXMaster, the first unified, reference-based framework for VFX video
generation. It recasts effect generation as an in-context learning task,
enabling it to reproduce diverse dynamic effects from a reference video onto
target content. In addition, it demonstrates remarkable generalization to
unseen effect categories. Specifically, we design an in-context conditioning
strategy that prompts the model with a reference example. An in-context
attention mask is designed to precisely decouple and inject the essential
effect attributes, allowing a single unified model to master the effect
imitation without information leakage. In addition, we propose an efficient
one-shot effect adaptation mechanism to boost generalization capability on
tough unseen effects from a single user-provided video rapidly. Extensive
experiments demonstrate that our method effectively imitates various categories
of effect information and exhibits outstanding generalization to out-of-domain
effects. To foster future research, we will release our code, models, and a
comprehensive dataset to the community.