IC-Effect: Edição Precisas e Eficiente de Efeitos em Vídeo via Aprendizado em Contexto

Resumo

Propomos o IC-Effect, uma estrutura baseada em DiT e guiada por instruções para edição de VFX em vídeo com poucos exemplos, que sintetiza efeitos complexos (por exemplo, chamas, partículas e personagens de desenhos animados) preservando estritamente a consistência espacial e temporal. A edição de VFX em vídeo é altamente desafiadora porque os efeitos injetados devem integrar-se perfeitamente ao fundo, o fundo deve permanecer completamente inalterado e os padrões dos efeitos devem ser aprendidos de forma eficiente a partir de dados pareados limitados. No entanto, os modelos existentes de edição de vídeo não conseguem satisfazer esses requisitos. O IC-Effect aproveita o vídeo de origem como condição contextual limpa, explorando a capacidade de aprendizagem contextual dos modelos DiT para alcançar uma preservação precisa do fundo e uma injeção natural de efeitos. Uma estratégia de treinamento em duas etapas, consistindo em adaptação geral de edição seguida por aprendizagem específica de efeitos via Effect-LoRA, garante um forte seguimento de instruções e uma modelagem robusta de efeitos. Para melhorar ainda mais a eficiência, introduzimos a tokenização esparsa espaço-temporal, permitindo alta fidelidade com uma computação substancialmente reduzida. Também disponibilizamos um conjunto de dados pareados para edição de VFX abrangendo 15 estilos visuais de alta qualidade. Experimentos extensivos mostram que o IC-Effect oferece uma edição de VFX de alta qualidade, controlável e temporalmente consistente, abrindo novas possibilidades para a criação de vídeos.

English

We propose IC-Effect, an instruction-guided, DiT-based framework for few-shot video VFX editing that synthesizes complex effects (\eg flames, particles and cartoon characters) while strictly preserving spatial and temporal consistency. Video VFX editing is highly challenging because injected effects must blend seamlessly with the background, the background must remain entirely unchanged, and effect patterns must be learned efficiently from limited paired data. However, existing video editing models fail to satisfy these requirements. IC-Effect leverages the source video as clean contextual conditions, exploiting the contextual learning capability of DiT models to achieve precise background preservation and natural effect injection. A two-stage training strategy, consisting of general editing adaptation followed by effect-specific learning via Effect-LoRA, ensures strong instruction following and robust effect modeling. To further improve efficiency, we introduce spatiotemporal sparse tokenization, enabling high fidelity with substantially reduced computation. We also release a paired VFX editing dataset spanning 15 high-quality visual styles. Extensive experiments show that IC-Effect delivers high-quality, controllable, and temporally consistent VFX editing, opening new possibilities for video creation.

IC-Effect: Edição Precisas e Eficiente de Efeitos em Vídeo via Aprendizado em Contexto

IC-Effect: Precise and Efficient Video Effects Editing via In-Context Learning

Resumo

Support