ViewFusion: Verso la Coerenza Multi-Vista tramite Denoising Interpolato

Abstract

La sintesi di nuove viste attraverso modelli di diffusione ha dimostrato un notevole potenziale nella generazione di immagini diversificate e di alta qualità. Tuttavia, il processo indipendente di generazione delle immagini in questi metodi prevalenti comporta sfide nel mantenere la coerenza tra più viste. Per affrontare questo problema, introduciamo ViewFusion, un nuovo algoritmo senza necessità di addestramento che può essere integrato senza soluzione di continuità in modelli di diffusione pre-addestrati esistenti. Il nostro approccio adotta un metodo auto-regressivo che sfrutta implicitamente le viste precedentemente generate come contesto per la generazione della vista successiva, garantendo una robusta coerenza multi-vista durante il processo di generazione di nuove viste. Attraverso un processo di diffusione che fonde le informazioni delle viste note tramite la denoising interpolata, il nostro framework estende con successo i modelli condizionati su singola vista per operare in contesti condizionati su più viste senza alcuna ulteriore messa a punto. I risultati sperimentali estesi dimostrano l'efficacia di ViewFusion nella generazione di nuove viste consistenti e dettagliate.

English

Novel-view synthesis through diffusion models has demonstrated remarkable potential for generating diverse and high-quality images. Yet, the independent process of image generation in these prevailing methods leads to challenges in maintaining multiple-view consistency. To address this, we introduce ViewFusion, a novel, training-free algorithm that can be seamlessly integrated into existing pre-trained diffusion models. Our approach adopts an auto-regressive method that implicitly leverages previously generated views as context for the next view generation, ensuring robust multi-view consistency during the novel-view generation process. Through a diffusion process that fuses known-view information via interpolated denoising, our framework successfully extends single-view conditioned models to work in multiple-view conditional settings without any additional fine-tuning. Extensive experimental results demonstrate the effectiveness of ViewFusion in generating consistent and detailed novel views.

ViewFusion: Verso la Coerenza Multi-Vista tramite Denoising Interpolato

ViewFusion: Towards Multi-View Consistency via Interpolated Denoising

Abstract

Support