ChatPaper.aiChatPaper

IC-Effect: Edición Precisa y Eficiente de Efectos de Video mediante Aprendizaje en Contexto

IC-Effect: Precise and Efficient Video Effects Editing via In-Context Learning

December 17, 2025
Autores: Yuanhang Li, Yiren Song, Junzhe Bai, Xinran Liang, Hu Yang, Libiao Jin, Qi Mao
cs.AI

Resumen

Proponemos IC-Effect, un marco basado en DiT y guiado por instrucciones para la edición de efectos visuales (VFX) en video con pocos ejemplos, que sintetiza efectos complejos (por ejemplo, llamas, partículas y personajes de dibujos animados) preservando estrictamente la coherencia espacial y temporal. La edición de VFX en video es altamente desafiante porque los efectos inyectados deben integrarse a la perfección con el fondo, el fondo debe permanecer completamente inalterado y los patrones de los efectos deben aprenderse eficientemente a partir de datos pareados limitados. Sin embargo, los modelos existentes de edición de video no logran satisfacer estos requisitos. IC-Effect aprovecha el video fuente como condiciones contextuales limpias, explotando la capacidad de aprendizaje contextual de los modelos DiT para lograr una preservación precisa del fondo y una inyección natural de efectos. Una estrategia de entrenamiento en dos etapas, que consiste en una adaptación general a la edición seguida de un aprendizaje específico de efectos mediante Effect-LoRA, garantiza un fuerte seguimiento de instrucciones y un modelado robusto de efectos. Para mejorar aún más la eficiencia, introducimos una tokenización espacio-temporal dispersa, que permite una alta fidelidad con un cálculo sustancialmente reducido. También publicamos un conjunto de datos pareados para edición de VFX que abarca 15 estilos visuales de alta calidad. Experimentos exhaustivos demuestran que IC-Effect ofrece una edición de VFX de alta calidad, controlable y temporalmente coherente, abriendo nuevas posibilidades para la creación de video.
English
We propose IC-Effect, an instruction-guided, DiT-based framework for few-shot video VFX editing that synthesizes complex effects (\eg flames, particles and cartoon characters) while strictly preserving spatial and temporal consistency. Video VFX editing is highly challenging because injected effects must blend seamlessly with the background, the background must remain entirely unchanged, and effect patterns must be learned efficiently from limited paired data. However, existing video editing models fail to satisfy these requirements. IC-Effect leverages the source video as clean contextual conditions, exploiting the contextual learning capability of DiT models to achieve precise background preservation and natural effect injection. A two-stage training strategy, consisting of general editing adaptation followed by effect-specific learning via Effect-LoRA, ensures strong instruction following and robust effect modeling. To further improve efficiency, we introduce spatiotemporal sparse tokenization, enabling high fidelity with substantially reduced computation. We also release a paired VFX editing dataset spanning 15 high-quality visual styles. Extensive experiments show that IC-Effect delivers high-quality, controllable, and temporally consistent VFX editing, opening new possibilities for video creation.
PDF192December 19, 2025