VFXMaster: インコンテキスト学習による動的ビジュアルエフェクト生成の実現
VFXMaster: Unlocking Dynamic Visual Effect Generation via In-Context Learning
October 29, 2025
著者: Baolu Li, Yiming Zhang, Qinghe Wang, Liqian Ma, Xiaoyu Shi, Xintao Wang, Pengfei Wan, Zhenfei Yin, Yunzhi Zhuge, Huchuan Lu, Xu Jia
cs.AI
要旨
視覚効果(VFX)はデジタルメディアの表現力において極めて重要であるにもかかわらず、その生成は生成AIにおける主要な課題として残っている。既存の手法は「1効果1LoRA」のパラダイムに依存する場合が多く、リソースを大量に消費する上に、未見の効果への汎化が原理的に不可能であるため、拡張性と創造性が制限されている。この課題に対処するため、我々は参照ベースの統合型VFX動画生成フレームワークであるVFXMasterを初めて提案する。本手法は効果生成をインコンテキスト学習タスクとして再定義し、参照動画から多様な動的効果を対象コンテンツに転写することを可能にする。さらに、未見の効果カテゴリーに対する顕著な汎化能力を示す。具体的には、参照例でモデルをプロンプトするインコンテキスト条件付け戦略を設計する。インコンテキスト注意マスクを設計することで、本質的な効果属性を精密に分離・注入し、単一の統合モデルが情報漏洩なく効果模倣を習得できるようにした。加えて、難易度の高い未見効果に対して、ユーザー提供の単一動画から迅速に汎化能力を高める効率的なワンショット効果適応メカニズムを提案する。大規模実験により、本手法が多様なカテゴリーの効果情報を効果的に模倣し、ドメイン外効果に対する優れた汎化性能を示すことを実証した。将来の研究発展を促進するため、コード、モデル、包括的なデータセットをコミュニティに公開する予定である。
English
Visual effects (VFX) are crucial to the expressive power of digital media,
yet their creation remains a major challenge for generative AI. Prevailing
methods often rely on the one-LoRA-per-effect paradigm, which is
resource-intensive and fundamentally incapable of generalizing to unseen
effects, thus limiting scalability and creation. To address this challenge, we
introduce VFXMaster, the first unified, reference-based framework for VFX video
generation. It recasts effect generation as an in-context learning task,
enabling it to reproduce diverse dynamic effects from a reference video onto
target content. In addition, it demonstrates remarkable generalization to
unseen effect categories. Specifically, we design an in-context conditioning
strategy that prompts the model with a reference example. An in-context
attention mask is designed to precisely decouple and inject the essential
effect attributes, allowing a single unified model to master the effect
imitation without information leakage. In addition, we propose an efficient
one-shot effect adaptation mechanism to boost generalization capability on
tough unseen effects from a single user-provided video rapidly. Extensive
experiments demonstrate that our method effectively imitates various categories
of effect information and exhibits outstanding generalization to out-of-domain
effects. To foster future research, we will release our code, models, and a
comprehensive dataset to the community.