VFXMaster: Desbloqueo de la Generación Dinámica de Efectos Visuales mediante Aprendizaje en Contexto
VFXMaster: Unlocking Dynamic Visual Effect Generation via In-Context Learning
October 29, 2025
Autores: Baolu Li, Yiming Zhang, Qinghe Wang, Liqian Ma, Xiaoyu Shi, Xintao Wang, Pengfei Wan, Zhenfei Yin, Yunzhi Zhuge, Huchuan Lu, Xu Jia
cs.AI
Resumen
Los efectos visuales (VFX) son cruciales para el poder expresivo de los medios digitales, sin embargo, su creación sigue siendo un gran desafío para la IA generativa. Los métodos predominantes a menudo se basan en el paradigma de un-LoRA-por-efecto, el cual es intensivo en recursos y fundamentalmente incapaz de generalizar a efectos no vistos, limitando así la escalabilidad y la creación. Para abordar este desafío, presentamos VFXMaster, el primer marco unificado y basado en referencia para la generación de videos con VFX. Este reformula la generación de efectos como una tarea de aprendizaje en contexto, permitiéndole reproducir diversos efectos dinámicos de un video de referencia a un contenido objetivo. Además, demuestra una notable generalización a categorías de efectos no vistas. Específicamente, diseñamos una estrategia de condicionamiento en contexto que proporciona al modelo un ejemplo de referencia. Se diseña una máscara de atención en contexto para desacoplar e inyectar con precisión los atributos esenciales del efecto, permitiendo que un único modelo unificado domine la imitación del efecto sin fugas de información. Adicionalmente, proponemos un mecanismo eficiente de adaptación de efectos de un solo disparo para potenciar rápidamente la capacidad de generalización en efectos no vistos complejos a partir de un único video proporcionado por el usuario. Experimentos exhaustivos demuestran que nuestro método imita efectivamente varias categorías de información de efectos y exhibe una generalización sobresaliente para efectos fuera de dominio. Para fomentar futuras investigaciones, liberaremos nuestro código, modelos y un conjunto de datos integral a la comunidad.
English
Visual effects (VFX) are crucial to the expressive power of digital media,
yet their creation remains a major challenge for generative AI. Prevailing
methods often rely on the one-LoRA-per-effect paradigm, which is
resource-intensive and fundamentally incapable of generalizing to unseen
effects, thus limiting scalability and creation. To address this challenge, we
introduce VFXMaster, the first unified, reference-based framework for VFX video
generation. It recasts effect generation as an in-context learning task,
enabling it to reproduce diverse dynamic effects from a reference video onto
target content. In addition, it demonstrates remarkable generalization to
unseen effect categories. Specifically, we design an in-context conditioning
strategy that prompts the model with a reference example. An in-context
attention mask is designed to precisely decouple and inject the essential
effect attributes, allowing a single unified model to master the effect
imitation without information leakage. In addition, we propose an efficient
one-shot effect adaptation mechanism to boost generalization capability on
tough unseen effects from a single user-provided video rapidly. Extensive
experiments demonstrate that our method effectively imitates various categories
of effect information and exhibits outstanding generalization to out-of-domain
effects. To foster future research, we will release our code, models, and a
comprehensive dataset to the community.