IC-Effect: Präzise und effiziente Videobearbeitungseffekte durch In-Context-Learning
IC-Effect: Precise and Efficient Video Effects Editing via In-Context Learning
December 17, 2025
papers.authors: Yuanhang Li, Yiren Song, Junzhe Bai, Xinran Liang, Hu Yang, Libiao Jin, Qi Mao
cs.AI
papers.abstract
Wir stellen IC-Effect vor, ein befehlsgeführtes, DiT-basiertes Framework für Few-Shot-Video-VFX-Bearbeitung, das komplexe Effekte (z.B. Flammen, Partikel und Zeichentrickfiguren) synthetisiert und dabei strikt die räumliche und zeitliche Konsistenz bewahrt. Die VFX-Bearbeitung von Videos ist äußerst anspruchsvoll, da eingefügte Effekte nahtlos mit dem Hintergrund verschmelzen müssen, der Hintergrund selbst vollständig unverändert bleiben muss und Effektmuster effizient aus begrenzten gepaarten Daten erlernt werden müssen. Bisherige Videobearbeitungsmodelle erfüllen diese Anforderungen jedoch nicht. IC-Effect nutzt das Quellvideo als saubere kontextuelle Bedingung und macht sich die kontextuelle Lernfähigkeit von DiT-Modellen zunutze, um eine präzise Hintergrunderhaltung und natürliche Effekteinblendung zu erreichen. Eine zweistufige Trainingsstrategie – bestehend aus allgemeiner Bearbeitungsanpassung gefolgt von effektspezifischem Lernen via Effect-LoRA – gewährleistet eine starke Befolgung von Anweisungen und robuste Effektmodellierung. Um die Effizienz weiter zu steigern, führen wir eine raumzeitlich sparse Tokenisierung ein, die hohe Qualität bei deutlich reduziertem Rechenaufwand ermöglicht. Zudem veröffentlichen wir einen gepaarten VFX-Bearbeitungs-Datensatz, der 15 hochwertige visuelle Stile umfasst. Umfangreiche Experimente zeigen, dass IC-Effect hochwertige, steuerbare und zeitlich konsistente VFX-Bearbeitung liefert und neue Möglichkeiten für die Videoproduktion eröffnet.
English
We propose IC-Effect, an instruction-guided, DiT-based framework for few-shot video VFX editing that synthesizes complex effects (\eg flames, particles and cartoon characters) while strictly preserving spatial and temporal consistency. Video VFX editing is highly challenging because injected effects must blend seamlessly with the background, the background must remain entirely unchanged, and effect patterns must be learned efficiently from limited paired data. However, existing video editing models fail to satisfy these requirements. IC-Effect leverages the source video as clean contextual conditions, exploiting the contextual learning capability of DiT models to achieve precise background preservation and natural effect injection. A two-stage training strategy, consisting of general editing adaptation followed by effect-specific learning via Effect-LoRA, ensures strong instruction following and robust effect modeling. To further improve efficiency, we introduce spatiotemporal sparse tokenization, enabling high fidelity with substantially reduced computation. We also release a paired VFX editing dataset spanning 15 high-quality visual styles. Extensive experiments show that IC-Effect delivers high-quality, controllable, and temporally consistent VFX editing, opening new possibilities for video creation.