Пересоздание видео: Перевод видео в видео с нулевым обучением на основе текстового описания
Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation
June 13, 2023
Авторы: Shuai Yang, Yifan Zhou, Ziwei Liu, Chen Change Loy
cs.AI
Аннотация
Крупные диффузионные модели для генерации изображений по тексту продемонстрировали впечатляющую способность создавать высококачественные изображения. Однако при применении этих моделей к видеообеспечение временной согласованности между кадрами остается серьезной проблемой. В данной статье предлагается новая zero-shot текст-управляемая структура для перевода видео в видео, адаптирующая модели изображений для работы с видео. Структура включает две части: перевод ключевых кадров и перевод полного видео. Первая часть использует адаптированную диффузионную модель для генерации ключевых кадров, с применением иерархических межкадровых ограничений для обеспечения согласованности форм, текстур и цветов. Вторая часть распространяет ключевые кадры на другие кадры с использованием временно-ориентированного сопоставления патчей и смешивания кадров. Наша структура достигает глобальной стилевой и локальной текстурной временной согласованности при низких затратах (без повторного обучения или оптимизации). Адаптация совместима с существующими техниками диффузии изображений, что позволяет нашей структуре использовать их преимущества, такие как настройка конкретного объекта с помощью LoRA и введение дополнительного пространственного управления с помощью ControlNet. Обширные экспериментальные результаты демонстрируют эффективность предложенной структуры по сравнению с существующими методами в создании высококачественных и временно-согласованных видео.
English
Large text-to-image diffusion models have exhibited impressive proficiency in
generating high-quality images. However, when applying these models to video
domain, ensuring temporal consistency across video frames remains a formidable
challenge. This paper proposes a novel zero-shot text-guided video-to-video
translation framework to adapt image models to videos. The framework includes
two parts: key frame translation and full video translation. The first part
uses an adapted diffusion model to generate key frames, with hierarchical
cross-frame constraints applied to enforce coherence in shapes, textures and
colors. The second part propagates the key frames to other frames with
temporal-aware patch matching and frame blending. Our framework achieves global
style and local texture temporal consistency at a low cost (without re-training
or optimization). The adaptation is compatible with existing image diffusion
techniques, allowing our framework to take advantage of them, such as
customizing a specific subject with LoRA, and introducing extra spatial
guidance with ControlNet. Extensive experimental results demonstrate the
effectiveness of our proposed framework over existing methods in rendering
high-quality and temporally-coherent videos.