ViewFusion: Verso la Coerenza Multi-Vista tramite Denoising Interpolato
ViewFusion: Towards Multi-View Consistency via Interpolated Denoising
February 29, 2024
Autori: Xianghui Yang, Yan Zuo, Sameera Ramasinghe, Loris Bazzani, Gil Avraham, Anton van den Hengel
cs.AI
Abstract
La sintesi di nuove viste attraverso modelli di diffusione ha dimostrato un notevole potenziale nella generazione di immagini diversificate e di alta qualità. Tuttavia, il processo indipendente di generazione delle immagini in questi metodi prevalenti comporta sfide nel mantenere la coerenza tra più viste. Per affrontare questo problema, introduciamo ViewFusion, un nuovo algoritmo senza necessità di addestramento che può essere integrato senza soluzione di continuità in modelli di diffusione pre-addestrati esistenti. Il nostro approccio adotta un metodo auto-regressivo che sfrutta implicitamente le viste precedentemente generate come contesto per la generazione della vista successiva, garantendo una robusta coerenza multi-vista durante il processo di generazione di nuove viste. Attraverso un processo di diffusione che fonde le informazioni delle viste note tramite la denoising interpolata, il nostro framework estende con successo i modelli condizionati su singola vista per operare in contesti condizionati su più viste senza alcuna ulteriore messa a punto. I risultati sperimentali estesi dimostrano l'efficacia di ViewFusion nella generazione di nuove viste consistenti e dettagliate.
English
Novel-view synthesis through diffusion models has demonstrated remarkable
potential for generating diverse and high-quality images. Yet, the independent
process of image generation in these prevailing methods leads to challenges in
maintaining multiple-view consistency. To address this, we introduce
ViewFusion, a novel, training-free algorithm that can be seamlessly integrated
into existing pre-trained diffusion models. Our approach adopts an
auto-regressive method that implicitly leverages previously generated views as
context for the next view generation, ensuring robust multi-view consistency
during the novel-view generation process. Through a diffusion process that
fuses known-view information via interpolated denoising, our framework
successfully extends single-view conditioned models to work in multiple-view
conditional settings without any additional fine-tuning. Extensive experimental
results demonstrate the effectiveness of ViewFusion in generating consistent
and detailed novel views.