ChatPaper.aiChatPaper

Memory-V2V: Расширение возможностей диффузионных моделей видео-в-видео с помощью памяти

Memory-V2V: Augmenting Video-to-Video Diffusion Models with Memory

January 22, 2026
Авторы: Dohun Lee, Chun-Hao Paul Huang, Xuelin Chen, Jong Chul Ye, Duygu Ceylan, Hyeonho Jeong
cs.AI

Аннотация

Современные базовые модели диффузии видео-в-видео демонстрируют впечатляющие результаты в редактировании пользовательских видеороликов, изменяя внешний вид, движение или перемещение камеры. Однако реальное редактирование видео часто представляет собой итеративный процесс, в котором пользователи уточняют результаты в ходе нескольких раундов взаимодействия. В этом многократном сценарии современные видеоредакторы испытывают трудности с поддержанием кросс-согласованности между последовательными правками. В данной работе мы впервые решаем проблему кросс-согласованности при многократном редактировании видео и представляем Memory-V2V — простую, но эффективную архитектуру, которая дополняет существующие модели видео-в-видео явной памятью. Используя внешний кэш ранее отредактированных видео, Memory-V2V применяет точные стратегии поиска и динамической токенизации для учета предыдущих результатов на текущем шаге редактирования. Для дальнейшего снижения избыточности и вычислительных затрат мы предлагаем обучаемый компрессор токенов в основе DiT, который сжимает избыточные conditioning-токены, сохраняя при этом важные визуальные признаки, что обеспечивает общее ускорение на 30%. Мы проверяем Memory-V2V на сложных задачах, включая синтез новых ракурсов видео и текстово-обусловленное редактирование длинных видео. Многочисленные эксперименты показывают, что Memory-V2V генерирует видео со значительно более высокой кросс-согласованностью при минимальных вычислительных затратах, сохраняя или даже улучшая целевые показатели по сравнению с передовыми базовыми методами. Страница проекта: https://dohunlee1.github.io/MemoryV2V
English
Recent foundational video-to-video diffusion models have achieved impressive results in editing user provided videos by modifying appearance, motion, or camera movement. However, real-world video editing is often an iterative process, where users refine results across multiple rounds of interaction. In this multi-turn setting, current video editors struggle to maintain cross-consistency across sequential edits. In this work, we tackle, for the first time, the problem of cross-consistency in multi-turn video editing and introduce Memory-V2V, a simple, yet effective framework that augments existing video-to-video models with explicit memory. Given an external cache of previously edited videos, Memory-V2V employs accurate retrieval and dynamic tokenization strategies to condition the current editing step on prior results. To further mitigate redundancy and computational overhead, we propose a learnable token compressor within the DiT backbone that compresses redundant conditioning tokens while preserving essential visual cues, achieving an overall speedup of 30%. We validate Memory-V2V on challenging tasks including video novel view synthesis and text-conditioned long video editing. Extensive experiments show that Memory-V2V produces videos that are significantly more cross-consistent with minimal computational overhead, while maintaining or even improving task-specific performance over state-of-the-art baselines. Project page: https://dohunlee1.github.io/MemoryV2V
PDF181January 27, 2026