FRESCO: Пространственно-временное соответствие для перевода видео без обучающих данных
FRESCO: Spatial-Temporal Correspondence for Zero-Shot Video Translation
March 19, 2024
Авторы: Shuai Yang, Yifan Zhou, Ziwei Liu, Chen Change Loy
cs.AI
Аннотация
Замечательная эффективность моделей диффузии текста в изображение побудила к обширному исследованию их потенциального применения в видеодоменах. Методы нулевого обучения стремятся расширить модели диффузии изображений на видео без необходимости обучения модели. Недавние методы в основном сосредотачиваются на включении межкадровой соответственности в механизмы внимания. Однако мягкое ограничение, налагаемое на определение, куда обращаться, чтобы обратить внимание на действительные признаки, иногда может быть недостаточным, что приводит к временной несогласованности. В данной статье мы представляем FRESCO, внутрикадровую соответственность наряду с межкадровой соответственностью для установления более надежного пространственно-временного ограничения. Это улучшение обеспечивает более последовательное преобразование семантически схожего контента между кадрами. Помимо простого руководства вниманием, наш подход включает явное обновление признаков для достижения высокой пространственно-временной согласованности с входным видео, что значительно улучшает визуальную согласованность полученных переведенных видео. Обширные эксперименты демонстрируют эффективность нашей предложенной структуры в создании высококачественных, согласованных видео, отмечая значительное улучшение по сравнению с существующими методами нулевого обучения.
English
The remarkable efficacy of text-to-image diffusion models has motivated
extensive exploration of their potential application in video domains.
Zero-shot methods seek to extend image diffusion models to videos without
necessitating model training. Recent methods mainly focus on incorporating
inter-frame correspondence into attention mechanisms. However, the soft
constraint imposed on determining where to attend to valid features can
sometimes be insufficient, resulting in temporal inconsistency. In this paper,
we introduce FRESCO, intra-frame correspondence alongside inter-frame
correspondence to establish a more robust spatial-temporal constraint. This
enhancement ensures a more consistent transformation of semantically similar
content across frames. Beyond mere attention guidance, our approach involves an
explicit update of features to achieve high spatial-temporal consistency with
the input video, significantly improving the visual coherence of the resulting
translated videos. Extensive experiments demonstrate the effectiveness of our
proposed framework in producing high-quality, coherent videos, marking a
notable improvement over existing zero-shot methods.Summary
AI-Generated Summary