VFXMaster: Dynamische Erstellung visueller Effekte durch In-Context-Learning
VFXMaster: Unlocking Dynamic Visual Effect Generation via In-Context Learning
October 29, 2025
papers.authors: Baolu Li, Yiming Zhang, Qinghe Wang, Liqian Ma, Xiaoyu Shi, Xintao Wang, Pengfei Wan, Zhenfei Yin, Yunzhi Zhuge, Huchuan Lu, Xu Jia
cs.AI
papers.abstract
Visuelle Effekte (VFX) sind entscheidend für die Ausdruckskraft digitaler Medien, doch ihre Erstellung bleibt eine große Herausforderung für generative KI. Vorherrschende Methoden stützen sich oft auf das Paradigma "ein LoRA pro Effekt", das ressourcenintensiv ist und grundsätzlich nicht in der Lage ist, auf unbekannte Effekte zu verallgemeinern, was Skalierbarkeit und Kreativität einschränkt. Um diese Herausforderung zu bewältigen, stellen wir VFXMaster vor, den ersten vereinheitlichten, referenzbasierten Rahmen für die VFX-Videogenerierung. Es formuliert die Effekterzeugung als In-Context-Learning-Aufgabe um, was es ermöglicht, verschiedene dynamische Effekte aus einem Referenzvideo auf Zielinhalte zu übertragen. Zusätzlich zeigt es eine bemerkenswerte Generalisierungsfähigkeit für unbekannte Effektkategorien. Konkret entwerfen wir eine In-Context-Conditioning-Strategie, die das Modell mit einem Referenzbeispiel anweist. Eine In-Context-Attentionsmaske wurde entwickelt, um die wesentlichen Effektattribute präzise zu entkoppeln und zu injizieren, was einem einzelnen vereinheitlichten Modell erlaubt, die Effektimitation ohne Informationsverlust zu beherrschen. Darüber hinaus schlagen wir einen effizienten One-Shot-Effektanpassungsmechanismus vor, um die Generalisierungsfähigkeit für schwierige, unbekannte Effekte aus einem einzelnen benutzerbereitgestellten Video schnell zu steigern. Umfangreiche Experimente belegen, dass unsere Methode effektiv verschiedene Kategorien von Effektinformationen imitiert und eine herausragende Generalisierung für Effekte außerhalb der Trainingsdomäne zeigt. Um zukünftige Forschung zu fördern, werden wir unseren Code, Modelle und einen umfassenden Datensatz der Gemeinschaft zur Verfügung stellen.
English
Visual effects (VFX) are crucial to the expressive power of digital media,
yet their creation remains a major challenge for generative AI. Prevailing
methods often rely on the one-LoRA-per-effect paradigm, which is
resource-intensive and fundamentally incapable of generalizing to unseen
effects, thus limiting scalability and creation. To address this challenge, we
introduce VFXMaster, the first unified, reference-based framework for VFX video
generation. It recasts effect generation as an in-context learning task,
enabling it to reproduce diverse dynamic effects from a reference video onto
target content. In addition, it demonstrates remarkable generalization to
unseen effect categories. Specifically, we design an in-context conditioning
strategy that prompts the model with a reference example. An in-context
attention mask is designed to precisely decouple and inject the essential
effect attributes, allowing a single unified model to master the effect
imitation without information leakage. In addition, we propose an efficient
one-shot effect adaptation mechanism to boost generalization capability on
tough unseen effects from a single user-provided video rapidly. Extensive
experiments demonstrate that our method effectively imitates various categories
of effect information and exhibits outstanding generalization to out-of-domain
effects. To foster future research, we will release our code, models, and a
comprehensive dataset to the community.