ChatPaper.aiChatPaper

IC-Effect: Modifica Precisa ed Efficiente degli Effetti Video tramite Apprendimento In-Contesto

IC-Effect: Precise and Efficient Video Effects Editing via In-Context Learning

December 17, 2025
Autori: Yuanhang Li, Yiren Song, Junzhe Bai, Xinran Liang, Hu Yang, Libiao Jin, Qi Mao
cs.AI

Abstract

Proponiamo IC-Effect, un framework basato su DiT e guidato da istruzioni per l'editing VFX video few-shot, che sintetizza effetti complessi (ad es. fiamme, particelle e personaggi cartoon) preservando rigorosamente la coerenza spaziale e temporale. L'editing VFX video è estremamente impegnativo poiché gli effetti iniettati devono fondersi perfettamente con lo sfondo, lo sfondo deve rimanere completamente invariato e i pattern degli effetti devono essere appresi efficientemente da dati accoppiati limitati. Tuttavia, i modelli di editing video esistenti non soddisfano questi requisiti. IC-Effect utilizza il video sorgente come condizione contestuale pulita, sfruttando la capacità di apprendimento contestuale dei modelli DiT per ottenere una preservazione precisa dello sfondo e un'iniezione naturale degli effetti. Una strategia di addestramento in due stadi, composta da un'adattamento generale all'editing seguito da un apprendimento specifico per effetto tramite Effect-LoRA, garantisce un forte rispetto delle istruzioni e una modellazione robusta degli effetti. Per migliorare ulteriormente l'efficienza, introduciamo una tokenizzazione spaziotemporale sparsa, che consente alta fedeltà con un calcolo sostanzialmente ridotto. Rilasciamo inoltre un dataset di editing VFX accoppiato che copre 15 stili visivi di alta qualità. Esperimenti estensivi mostrano che IC-Effect fornisce un editing VFX di alta qualità, controllabile e temporalmente coerente, aprendo nuove possibilità per la creazione video.
English
We propose IC-Effect, an instruction-guided, DiT-based framework for few-shot video VFX editing that synthesizes complex effects (\eg flames, particles and cartoon characters) while strictly preserving spatial and temporal consistency. Video VFX editing is highly challenging because injected effects must blend seamlessly with the background, the background must remain entirely unchanged, and effect patterns must be learned efficiently from limited paired data. However, existing video editing models fail to satisfy these requirements. IC-Effect leverages the source video as clean contextual conditions, exploiting the contextual learning capability of DiT models to achieve precise background preservation and natural effect injection. A two-stage training strategy, consisting of general editing adaptation followed by effect-specific learning via Effect-LoRA, ensures strong instruction following and robust effect modeling. To further improve efficiency, we introduce spatiotemporal sparse tokenization, enabling high fidelity with substantially reduced computation. We also release a paired VFX editing dataset spanning 15 high-quality visual styles. Extensive experiments show that IC-Effect delivers high-quality, controllable, and temporally consistent VFX editing, opening new possibilities for video creation.
PDF192December 19, 2025