ChatPaper.aiChatPaper

IC-Effect: Nauwkeurige en efficiënte videobewerkingseffecten via In-Context Learning

IC-Effect: Precise and Efficient Video Effects Editing via In-Context Learning

December 17, 2025
Auteurs: Yuanhang Li, Yiren Song, Junzhe Bai, Xinran Liang, Hu Yang, Libiao Jin, Qi Mao
cs.AI

Samenvatting

Wij presenteren IC-Effect, een instructiegestuurd, op DiT gebaseerd raamwerk voor few-shot video VFX-bewerking dat complexe effecten (zoals vlammen, deeltjes en tekenfilmpersonages) synthetiseert, waarbij ruimtelijke en temporele consistentie strikt behouden blijft. Video VFX-bewerking is zeer uitdagend omdat geïnjecteerde effecten naadloos moeten samensmelten met de achtergrond, de achtergrond volledig onveranderd moet blijven en effectpatronen efficiënt geleerd moeten worden uit beperkte gepaarde data. Bestaande videobewerkingsmodellen voldoen echter niet aan deze vereisten. IC-Effect benut de bronvideo als schone contextuele condities, waarbij de contextuele leer-capaciteit van DiT-modellen wordt geëxploiteerd om precieze achtergrondbehoud en natuurlijke effectinjectie te bereiken. Een tweefasen-trainingsstrategie, bestaande uit algemene bewerkings-adaptatie gevolgd door effectspecifiek leren via Effect-LoRA, zorgt voor sterk instructievolgend gedrag en robuuste effectmodellering. Om de efficiëntie verder te verbeteren, introduceren we spatiotemporele sparse tokenisatie, waardoor hoge kwaliteit mogelijk is met aanzienlijk gereduceerde rekenkosten. Wij publiceren ook een gepaarde VFX-bewerkingsdataset met 15 hoogwaardige visuele stijlen. Uitgebreide experimenten tonen aan dat IC-Effect hoogwaardige, controleerbare en temporeel consistente VFX-bewerking levert, wat nieuwe mogelijkheden opent voor videocreatie.
English
We propose IC-Effect, an instruction-guided, DiT-based framework for few-shot video VFX editing that synthesizes complex effects (\eg flames, particles and cartoon characters) while strictly preserving spatial and temporal consistency. Video VFX editing is highly challenging because injected effects must blend seamlessly with the background, the background must remain entirely unchanged, and effect patterns must be learned efficiently from limited paired data. However, existing video editing models fail to satisfy these requirements. IC-Effect leverages the source video as clean contextual conditions, exploiting the contextual learning capability of DiT models to achieve precise background preservation and natural effect injection. A two-stage training strategy, consisting of general editing adaptation followed by effect-specific learning via Effect-LoRA, ensures strong instruction following and robust effect modeling. To further improve efficiency, we introduce spatiotemporal sparse tokenization, enabling high fidelity with substantially reduced computation. We also release a paired VFX editing dataset spanning 15 high-quality visual styles. Extensive experiments show that IC-Effect delivers high-quality, controllable, and temporally consistent VFX editing, opening new possibilities for video creation.
PDF192December 19, 2025