VidToMe: Слияние видеотокенов для редактирования видео с нулевым обучением
VidToMe: Video Token Merging for Zero-Shot Video Editing
December 17, 2023
Авторы: Xirui Li, Chao Ma, Xiaokang Yang, Ming-Hsuan Yang
cs.AI
Аннотация
Диффузионные модели достигли значительных успехов в генерации высококачественных изображений, однако их применение для создания видео остается сложной задачей из-за сложности временного движения. Редактирование видео с нулевым обучением предлагает решение, используя предварительно обученные диффузионные модели изображений для преобразования исходных видео в новые. Тем не менее, существующие методы сталкиваются с трудностями в поддержании строгой временной согласованности и эффективного потребления памяти. В данной работе мы предлагаем новый подход для улучшения временной согласованности в генерируемых видео путем объединения токенов самовнимания между кадрами. Выравнивая и сжимая временно избыточные токены между кадрами, наш метод повышает временную согласованность и снижает потребление памяти при вычислениях самовнимания. Стратегия объединения сопоставляет и выравнивает токены в соответствии с временной корреляцией между кадрами, способствуя естественной временной согласованности в генерируемых видео. Для управления сложностью обработки видео мы разделяем видео на фрагменты и разрабатываем локальное объединение токенов внутри фрагментов и глобальное объединение токенов между фрагментами, обеспечивая как краткосрочную непрерывность видео, так и долгосрочную согласованность содержания. Наш подход к редактированию видео плавно расширяет достижения в редактировании изображений на редактирование видео, демонстрируя превосходные результаты в временной согласованности по сравнению с современными методами.
English
Diffusion models have made significant advances in generating high-quality
images, but their application to video generation has remained challenging due
to the complexity of temporal motion. Zero-shot video editing offers a solution
by utilizing pre-trained image diffusion models to translate source videos into
new ones. Nevertheless, existing methods struggle to maintain strict temporal
consistency and efficient memory consumption. In this work, we propose a novel
approach to enhance temporal consistency in generated videos by merging
self-attention tokens across frames. By aligning and compressing temporally
redundant tokens across frames, our method improves temporal coherence and
reduces memory consumption in self-attention computations. The merging strategy
matches and aligns tokens according to the temporal correspondence between
frames, facilitating natural temporal consistency in generated video frames. To
manage the complexity of video processing, we divide videos into chunks and
develop intra-chunk local token merging and inter-chunk global token merging,
ensuring both short-term video continuity and long-term content consistency.
Our video editing approach seamlessly extends the advancements in image editing
to video editing, rendering favorable results in temporal consistency over
state-of-the-art methods.