ChatPaper.aiChatPaper

Reconstruire une vidéo : Traduction vidéo-à-vidéo guidée par texte en Zero-Shot

Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation

June 13, 2023
Auteurs: Shuai Yang, Yifan Zhou, Ziwei Liu, Chen Change Loy
cs.AI

Résumé

Les grands modèles de diffusion texte-image ont démontré une impressionnante capacité à générer des images de haute qualité. Cependant, lors de l'application de ces modèles au domaine vidéo, assurer une cohérence temporelle entre les images vidéo reste un défi majeur. Cet article propose un nouveau cadre de traduction vidéo-à-vidéo guidée par texte en mode zéro-shot pour adapter les modèles d'images aux vidéos. Le cadre comprend deux parties : la traduction des images clés et la traduction de la vidéo complète. La première partie utilise un modèle de diffusion adapté pour générer des images clés, avec des contraintes hiérarchiques inter-images appliquées pour renforcer la cohérence des formes, textures et couleurs. La seconde partie propage les images clés aux autres images grâce à une correspondance de patchs sensible au temps et un mélange d'images. Notre cadre atteint une cohérence temporelle globale du style et locale des textures à faible coût (sans ré-entraînement ni optimisation). L'adaptation est compatible avec les techniques de diffusion d'images existantes, permettant à notre cadre de tirer parti de celles-ci, comme la personnalisation d'un sujet spécifique avec LoRA, et l'introduction de guidage spatial supplémentaire avec ControlNet. Les résultats expérimentaux approfondis démontrent l'efficacité de notre cadre proposé par rapport aux méthodes existantes pour produire des vidéos de haute qualité et temporellement cohérentes.
English
Large text-to-image diffusion models have exhibited impressive proficiency in generating high-quality images. However, when applying these models to video domain, ensuring temporal consistency across video frames remains a formidable challenge. This paper proposes a novel zero-shot text-guided video-to-video translation framework to adapt image models to videos. The framework includes two parts: key frame translation and full video translation. The first part uses an adapted diffusion model to generate key frames, with hierarchical cross-frame constraints applied to enforce coherence in shapes, textures and colors. The second part propagates the key frames to other frames with temporal-aware patch matching and frame blending. Our framework achieves global style and local texture temporal consistency at a low cost (without re-training or optimization). The adaptation is compatible with existing image diffusion techniques, allowing our framework to take advantage of them, such as customizing a specific subject with LoRA, and introducing extra spatial guidance with ControlNet. Extensive experimental results demonstrate the effectiveness of our proposed framework over existing methods in rendering high-quality and temporally-coherent videos.
PDF11111December 15, 2024