ViewFusion : Vers la cohérence multi-vues par désentrelacement interpolé
ViewFusion: Towards Multi-View Consistency via Interpolated Denoising
February 29, 2024
Auteurs: Xianghui Yang, Yan Zuo, Sameera Ramasinghe, Loris Bazzani, Gil Avraham, Anton van den Hengel
cs.AI
Résumé
La synthèse de nouvelles vues à travers les modèles de diffusion a démontré un potentiel remarquable pour générer des images diversifiées et de haute qualité. Cependant, le processus indépendant de génération d'images dans ces méthodes prédominantes pose des défis pour maintenir la cohérence entre plusieurs vues. Pour résoudre ce problème, nous introduisons ViewFusion, un nouvel algorithme sans apprentissage qui peut être intégré de manière transparente dans les modèles de diffusion pré-entraînés existants. Notre approche adopte une méthode auto-régressive qui exploite implicitement les vues précédemment générées comme contexte pour la génération de la vue suivante, assurant ainsi une robuste cohérence multi-vues lors du processus de génération de nouvelles vues. Grâce à un processus de diffusion qui fusionne les informations des vues connues via un débruitage interpolé, notre framework étend avec succès les modèles conditionnés par une seule vue pour fonctionner dans des configurations conditionnées par plusieurs vues, sans aucun ajustement supplémentaire. Les résultats expérimentaux approfondis démontrent l'efficacité de ViewFusion dans la génération de nouvelles vues cohérentes et détaillées.
English
Novel-view synthesis through diffusion models has demonstrated remarkable
potential for generating diverse and high-quality images. Yet, the independent
process of image generation in these prevailing methods leads to challenges in
maintaining multiple-view consistency. To address this, we introduce
ViewFusion, a novel, training-free algorithm that can be seamlessly integrated
into existing pre-trained diffusion models. Our approach adopts an
auto-regressive method that implicitly leverages previously generated views as
context for the next view generation, ensuring robust multi-view consistency
during the novel-view generation process. Through a diffusion process that
fuses known-view information via interpolated denoising, our framework
successfully extends single-view conditioned models to work in multiple-view
conditional settings without any additional fine-tuning. Extensive experimental
results demonstrate the effectiveness of ViewFusion in generating consistent
and detailed novel views.