IC-효과: 인-컨텍스트 러닝을 통한 정밀하고 효율적인 비디오 효과 편집
IC-Effect: Precise and Efficient Video Effects Editing via In-Context Learning
December 17, 2025
저자: Yuanhang Li, Yiren Song, Junzhe Bai, Xinran Liang, Hu Yang, Libiao Jin, Qi Mao
cs.AI
초록
본 논문에서는 소량의 데이터만으로 비디오 VFX 편집을 수행하는 instruction-guided, DiT 기반 프레임워크인 IC-Effect를 제안한다. 제안된 방법은 복잡한 효과(예: 화염, 입자, 캐릭터 애니메이션)를 합성하면서 공간적 및 시간적 일관성을 엄격하게 유지한다. 비디오 VFX 편집은 주입된 효과가 배경과 자연스럽게 어우러져야 하고, 배경은 완전히 변경되지 않은 상태로 유지되어야 하며, 제한된 paired 데이터로부터 효과 패턴을 효율적으로 학습해야 하므로 매우 어려운 과제다. 그러나 기존 비디오 편집 모델들은 이러한 요구사항을 충족하지 못한다. IC-Effect는 DiT 모델의 contextual learning 능력을 활용하여 소스 비디오를 깨끗한 맥락적 조건으로 이용함으로써 정확한 배경 보존과 자연스러운 효과 주입을 달성한다. 일반적인 편집 적응 단계와 Effect-LoRA를 통한 효과 특화 학습 단계로 구성된 2단계 학습 전략은 강력한 지시문 준수 능력과 견고한 효과 모델링을 보장한다. 효율성 향상을 위해 시공간적 희소 토큰화를 도입하여 계산량을 대폭 줄이면서도 높은 fidelity를 가능하게 했다. 또한 15가지 고품질 시각적 스타일을 아우르는 paired VFX 편집 데이터셋을 공개한다. 폭넓은 실험을 통해 IC-Effect가 고품질, 제어 가능하며 시간적으로 일관된 VFX 편집 결과를 제공하여 비디오 제작에 새로운 가능성을 열어줌을 입증한다.
English
We propose IC-Effect, an instruction-guided, DiT-based framework for few-shot video VFX editing that synthesizes complex effects (\eg flames, particles and cartoon characters) while strictly preserving spatial and temporal consistency. Video VFX editing is highly challenging because injected effects must blend seamlessly with the background, the background must remain entirely unchanged, and effect patterns must be learned efficiently from limited paired data. However, existing video editing models fail to satisfy these requirements. IC-Effect leverages the source video as clean contextual conditions, exploiting the contextual learning capability of DiT models to achieve precise background preservation and natural effect injection. A two-stage training strategy, consisting of general editing adaptation followed by effect-specific learning via Effect-LoRA, ensures strong instruction following and robust effect modeling. To further improve efficiency, we introduce spatiotemporal sparse tokenization, enabling high fidelity with substantially reduced computation. We also release a paired VFX editing dataset spanning 15 high-quality visual styles. Extensive experiments show that IC-Effect delivers high-quality, controllable, and temporally consistent VFX editing, opening new possibilities for video creation.