ChatPaper.aiChatPaper

IC-Effect: Точное и эффективное редактирование видеоэффектов с помощью контекстного обучения

IC-Effect: Precise and Efficient Video Effects Editing via In-Context Learning

December 17, 2025
Авторы: Yuanhang Li, Yiren Song, Junzhe Bai, Xinran Liang, Hu Yang, Libiao Jin, Qi Mao
cs.AI

Аннотация

Мы представляем IC-Effect — управляемую инструкциями, основанную на DiT (Diffusion Transformer) систему для видеомонтажа с визуальными эффектами (VFX) в условиях ограниченного количества примеров, которая синтезирует сложные эффекты (например, пламя, частицы и мультяшных персонажей), строго сохраняя пространственную и временную согласованность. Редактирование видео с VFX является чрезвычайно сложной задачей, поскольку вносимые эффекты должны бесшовно интегрироваться с фоном, фон должен оставаться полностью неизменным, а паттерны эффектов необходимо эффективно обучать на ограниченных парных данных. Однако существующие модели редактирования видео не удовлетворяют этим требованиям. IC-Effect использует исходное видео в качестве чистого контекстного условия, раскрывая способность моделей DiT к контекстному обучению для достижения точного сохранения фона и естественного внедрения эффектов. Двухэтапная стратегия обучения, состоящая из общей адаптации для редактирования с последующим эффекто-специфичным обучением через Effect-LoRA, обеспечивает точное следование инструкциям и надежное моделирование эффектов. Для дальнейшего повышения эффективности мы вводим пространственно-временную разреженную токенизацию, позволяющую достичь высокой точности при существенно сниженных вычислительных затратах. Мы также публикуем парный набор данных для VFX-редактирования, охватывающий 15 высококачественных визуальных стилей. Многочисленные эксперименты показывают, что IC-Effect обеспечивает высококачественное, управляемое и временно согласованное VFX-редактирование, открывая новые возможности для создания видео.
English
We propose IC-Effect, an instruction-guided, DiT-based framework for few-shot video VFX editing that synthesizes complex effects (\eg flames, particles and cartoon characters) while strictly preserving spatial and temporal consistency. Video VFX editing is highly challenging because injected effects must blend seamlessly with the background, the background must remain entirely unchanged, and effect patterns must be learned efficiently from limited paired data. However, existing video editing models fail to satisfy these requirements. IC-Effect leverages the source video as clean contextual conditions, exploiting the contextual learning capability of DiT models to achieve precise background preservation and natural effect injection. A two-stage training strategy, consisting of general editing adaptation followed by effect-specific learning via Effect-LoRA, ensures strong instruction following and robust effect modeling. To further improve efficiency, we introduce spatiotemporal sparse tokenization, enabling high fidelity with substantially reduced computation. We also release a paired VFX editing dataset spanning 15 high-quality visual styles. Extensive experiments show that IC-Effect delivers high-quality, controllable, and temporally consistent VFX editing, opening new possibilities for video creation.
PDF192December 19, 2025