ChatPaper.aiChatPaper

VFXMaster: 인컨텍스트 러닝을 통한 동적 시각 효과 생성의 개방

VFXMaster: Unlocking Dynamic Visual Effect Generation via In-Context Learning

October 29, 2025
저자: Baolu Li, Yiming Zhang, Qinghe Wang, Liqian Ma, Xiaoyu Shi, Xintao Wang, Pengfei Wan, Zhenfei Yin, Yunzhi Zhuge, Huchuan Lu, Xu Jia
cs.AI

초록

시각 효과(VFX)는 디지털 미디어의 표현력에 있어 핵심적이지만, 그 생성은 생성형 AI에게 여전히 큰 과제로 남아 있습니다. 기존 방법은 대개 효과마다 하나의 LoRA를 활용하는 패러다임에 의존하는데, 이는 자원 소모가 크고 본질적으로 보지 못한 효과로의 일반화가 불가능하여 확장성과 창의성을 제한합니다. 이러한 문제를 해결하기 위해 우리는 참조 기반의 통합 VFX 비디오 생성 프레임워크인 VFXMaster를 최초로 소개합니다. 이는 효과 생성을 컨텍스트 내 학습 작업으로 재정의하여 참조 비디오로부터 다양한 동적 효과를 대상 콘텐츠에 재현할 수 있게 합니다. 또한 보지 못한 효과 범주에 대해 뛰어난 일반화 능력을 보여줍니다. 구체적으로, 우리는 모델에 참조 예시를 제공하는 컨텍스트 내 조건 설정 전략을 설계했습니다. 컨텍스트 내 어텐션 마스크는 핵심 효과 속성을 정밀하게 분리하고 주입하도록 설계되어, 단일 통합 모델이 정보 누출 없이 효과 모방을 숙달할 수 있게 합니다. 더불어, 사용자가 제공한 단일 비디오로부터 까다로운 보지 못한 효과에 대한 일반화 능력을 신속하게 향상시키는 효율적인 원샷 효과 적응 메커니즘을 제안합니다. 광범위한 실험을 통해 우리의 방법이 다양한 범주의 효과 정보를 효과적으로 모방하고 도메인 외 효과에 대해 탁월한 일반화 성능을 나타냄을 입증했습니다. 향후 연구를 촉진하기 위해 코드, 모델, 그리고 포괄적인 데이터셋을 커뮤니티에 공개할 예정입니다.
English
Visual effects (VFX) are crucial to the expressive power of digital media, yet their creation remains a major challenge for generative AI. Prevailing methods often rely on the one-LoRA-per-effect paradigm, which is resource-intensive and fundamentally incapable of generalizing to unseen effects, thus limiting scalability and creation. To address this challenge, we introduce VFXMaster, the first unified, reference-based framework for VFX video generation. It recasts effect generation as an in-context learning task, enabling it to reproduce diverse dynamic effects from a reference video onto target content. In addition, it demonstrates remarkable generalization to unseen effect categories. Specifically, we design an in-context conditioning strategy that prompts the model with a reference example. An in-context attention mask is designed to precisely decouple and inject the essential effect attributes, allowing a single unified model to master the effect imitation without information leakage. In addition, we propose an efficient one-shot effect adaptation mechanism to boost generalization capability on tough unseen effects from a single user-provided video rapidly. Extensive experiments demonstrate that our method effectively imitates various categories of effect information and exhibits outstanding generalization to out-of-domain effects. To foster future research, we will release our code, models, and a comprehensive dataset to the community.
PDF321December 2, 2025