VFXMaster: Desbloqueando a Geração Dinâmica de Efeitos Visuais através da Aprendizagem em Contexto
VFXMaster: Unlocking Dynamic Visual Effect Generation via In-Context Learning
October 29, 2025
Autores: Baolu Li, Yiming Zhang, Qinghe Wang, Liqian Ma, Xiaoyu Shi, Xintao Wang, Pengfei Wan, Zhenfei Yin, Yunzhi Zhuge, Huchuan Lu, Xu Jia
cs.AI
Resumo
Os efeitos visuais (VFX) são cruciais para o poder expressivo das mídias digitais,
no entanto, sua criação permanece um grande desafio para a IA generativa. Os métodos
predominantes frequentemente dependem do paradigma de um-LoRA-por-efeito, que é
intensivo em recursos e fundamentalmente incapaz de generalizar para efeitos não vistos,
limitando assim a escalabilidade e a criação. Para enfrentar este desafio, nós
apresentamos o VFXMaster, o primeiro framework unificado e baseado em referência para
geração de vídeos com VFX. Ele reformula a geração de efeitos como uma tarefa de
aprendizado em contexto, permitindo reproduzir diversos efeitos dinâmicos de um vídeo
de referência para um conteúdo alvo. Além disso, demonstra uma generalização notável
para categorias de efeitos não vistas. Especificamente, projetamos uma estratégia de
condicionamento em contexto que instrui o modelo com um exemplo de referência. Uma
máscara de atenção em contexto é projetada para desacoplar e injetar com precisão os
atributos essenciais do efeito, permitindo que um único modelo unificado domine a
imitação do efeito sem vazamento de informação. Adicionalmente, propomos um mecanismo
eficiente de adaptação de efeito one-shot para impulsionar rapidamente a capacidade de
generalização em efeitos não vistos complexos a partir de um único vídeo fornecido pelo
utilizador. Experimentos extensivos demonstram que o nosso método imita eficazmente
várias categorias de informação de efeito e exibe uma generalização excecional para
efeitos fora do domínio. Para promover pesquisas futuras, disponibilizaremos o nosso
código, modelos e um conjunto de dados abrangente para a comunidade.
English
Visual effects (VFX) are crucial to the expressive power of digital media,
yet their creation remains a major challenge for generative AI. Prevailing
methods often rely on the one-LoRA-per-effect paradigm, which is
resource-intensive and fundamentally incapable of generalizing to unseen
effects, thus limiting scalability and creation. To address this challenge, we
introduce VFXMaster, the first unified, reference-based framework for VFX video
generation. It recasts effect generation as an in-context learning task,
enabling it to reproduce diverse dynamic effects from a reference video onto
target content. In addition, it demonstrates remarkable generalization to
unseen effect categories. Specifically, we design an in-context conditioning
strategy that prompts the model with a reference example. An in-context
attention mask is designed to precisely decouple and inject the essential
effect attributes, allowing a single unified model to master the effect
imitation without information leakage. In addition, we propose an efficient
one-shot effect adaptation mechanism to boost generalization capability on
tough unseen effects from a single user-provided video rapidly. Extensive
experiments demonstrate that our method effectively imitates various categories
of effect information and exhibits outstanding generalization to out-of-domain
effects. To foster future research, we will release our code, models, and a
comprehensive dataset to the community.