ChatPaper.aiChatPaper

FRESCO : Correspondance spatio-temporelle pour la traduction vidéo zero-shot

FRESCO: Spatial-Temporal Correspondence for Zero-Shot Video Translation

March 19, 2024
Auteurs: Shuai Yang, Yifan Zhou, Ziwei Liu, Chen Change Loy
cs.AI

Résumé

L'efficacité remarquable des modèles de diffusion texte-image a motivé une exploration approfondie de leur application potentielle dans les domaines vidéo. Les méthodes zero-shot visent à étendre les modèles de diffusion d'images aux vidéos sans nécessiter d'entraînement du modèle. Les méthodes récentes se concentrent principalement sur l'intégration de la correspondance inter-images dans les mécanismes d'attention. Cependant, la contrainte douce imposée pour déterminer où se concentrer sur les caractéristiques valides peut parfois s'avérer insuffisante, entraînant une incohérence temporelle. Dans cet article, nous introduisons FRESCO, une correspondance intra-image parallèlement à la correspondance inter-images, afin d'établir une contrainte spatio-temporelle plus robuste. Cette amélioration garantit une transformation plus cohérente du contenu sémantiquement similaire à travers les images. Au-delà du simple guidage de l'attention, notre approche implique une mise à jour explicite des caractéristiques pour atteindre une cohérence spatio-temporelle élevée avec la vidéo d'entrée, améliorant significativement la cohérence visuelle des vidéos traduites résultantes. Des expériences approfondies démontrent l'efficacité de notre cadre proposé dans la production de vidéos de haute qualité et cohérentes, marquant une amélioration notable par rapport aux méthodes zero-shot existantes.
English
The remarkable efficacy of text-to-image diffusion models has motivated extensive exploration of their potential application in video domains. Zero-shot methods seek to extend image diffusion models to videos without necessitating model training. Recent methods mainly focus on incorporating inter-frame correspondence into attention mechanisms. However, the soft constraint imposed on determining where to attend to valid features can sometimes be insufficient, resulting in temporal inconsistency. In this paper, we introduce FRESCO, intra-frame correspondence alongside inter-frame correspondence to establish a more robust spatial-temporal constraint. This enhancement ensures a more consistent transformation of semantically similar content across frames. Beyond mere attention guidance, our approach involves an explicit update of features to achieve high spatial-temporal consistency with the input video, significantly improving the visual coherence of the resulting translated videos. Extensive experiments demonstrate the effectiveness of our proposed framework in producing high-quality, coherent videos, marking a notable improvement over existing zero-shot methods.

Summary

AI-Generated Summary

PDF81December 15, 2024