IC-Effect : Édition précise et efficace d'effets vidéo par apprentissage en contexte
IC-Effect: Precise and Efficient Video Effects Editing via In-Context Learning
December 17, 2025
papers.authors: Yuanhang Li, Yiren Song, Junzhe Bai, Xinran Liang, Hu Yang, Libiao Jin, Qi Mao
cs.AI
papers.abstract
Nous proposons IC-Effect, un cadre basé sur DiT et guidé par des instructions pour l'édition vidéo d'effets visuels (VFX) en few-shot, qui synthétise des effets complexes (par exemple, des flammes, des particules et des personnages de dessin animé) tout en préservant strictement la cohérence spatiale et temporelle. L'édition vidéo VFX est très difficile car les effets injectés doivent s'intégrer parfaitement à l'arrière-plan, ce dernier doit rester entièrement inchangé, et les motifs des effets doivent être appris efficacement à partir de données appariées limitées. Cependant, les modèles d'édition vidéo existants ne satisfont pas à ces exigences. IC-Effect exploite la vidéo source comme condition contextuelle propre, en utilisant la capacité d'apprentissage contextuel des modèles DiT pour réaliser une préservation précise de l'arrière-plan et une injection naturelle des effets. Une stratégie d'entraînement en deux étapes, consistant en une adaptation générale à l'édition suivie d'un apprentissage spécifique aux effets via Effect-LoRA, garantit un suivi rigoureux des instructions et une modélisation robuste des effets. Pour améliorer encore l'efficacité, nous introduisons une tokenisation parcimonieuse spatio-temporelle, permettant une haute fidélité avec une réduction substantielle des calculs. Nous publions également un jeu de données apparié pour l'édition VFX couvrant 15 styles visuels de haute qualité. Des expériences approfondies montrent qu'IC-Effect offre une édition VFX de haute qualité, contrôlable et temporellement cohérente, ouvrant de nouvelles possibilités pour la création vidéo.
English
We propose IC-Effect, an instruction-guided, DiT-based framework for few-shot video VFX editing that synthesizes complex effects (\eg flames, particles and cartoon characters) while strictly preserving spatial and temporal consistency. Video VFX editing is highly challenging because injected effects must blend seamlessly with the background, the background must remain entirely unchanged, and effect patterns must be learned efficiently from limited paired data. However, existing video editing models fail to satisfy these requirements. IC-Effect leverages the source video as clean contextual conditions, exploiting the contextual learning capability of DiT models to achieve precise background preservation and natural effect injection. A two-stage training strategy, consisting of general editing adaptation followed by effect-specific learning via Effect-LoRA, ensures strong instruction following and robust effect modeling. To further improve efficiency, we introduce spatiotemporal sparse tokenization, enabling high fidelity with substantially reduced computation. We also release a paired VFX editing dataset spanning 15 high-quality visual styles. Extensive experiments show that IC-Effect delivers high-quality, controllable, and temporally consistent VFX editing, opening new possibilities for video creation.