ViewFusion: Naar Multi-View Consistentie via Geïnterpoleerde Denoising
ViewFusion: Towards Multi-View Consistency via Interpolated Denoising
February 29, 2024
Auteurs: Xianghui Yang, Yan Zuo, Sameera Ramasinghe, Loris Bazzani, Gil Avraham, Anton van den Hengel
cs.AI
Samenvatting
Novel-view synthese via diffusiemodellen heeft opmerkelijke potentie getoond voor het genereren van diverse en hoogwaardige afbeeldingen. Toch leidt het onafhankelijke proces van beeldgeneratie in deze gangbare methoden tot uitdagingen bij het behouden van consistentie tussen meerdere aanzichten. Om dit aan te pakken, introduceren we ViewFusion, een innovatief, trainingsvrij algoritme dat naadloos kan worden geïntegreerd in bestaande vooraf getrainde diffusiemodellen. Onze aanpak maakt gebruik van een autoregressieve methode die impliciet gebruikmaakt van eerder gegenereerde aanzichten als context voor de generatie van het volgende aanzicht, waardoor robuuste consistentie tussen meerdere aanzichten wordt gewaarborgd tijdens het novel-view generatieproces. Door een diffusieproces dat bekende aanzichten combineert via geïnterpoleerde denoising, breidt ons framework modellen die op één aanzicht zijn geconditioneerd succesvol uit naar meerdere aanzichten zonder aanvullende fine-tuning. Uitgebreide experimentele resultaten tonen de effectiviteit van ViewFusion aan in het genereren van consistente en gedetailleerde novel views.
English
Novel-view synthesis through diffusion models has demonstrated remarkable
potential for generating diverse and high-quality images. Yet, the independent
process of image generation in these prevailing methods leads to challenges in
maintaining multiple-view consistency. To address this, we introduce
ViewFusion, a novel, training-free algorithm that can be seamlessly integrated
into existing pre-trained diffusion models. Our approach adopts an
auto-regressive method that implicitly leverages previously generated views as
context for the next view generation, ensuring robust multi-view consistency
during the novel-view generation process. Through a diffusion process that
fuses known-view information via interpolated denoising, our framework
successfully extends single-view conditioned models to work in multiple-view
conditional settings without any additional fine-tuning. Extensive experimental
results demonstrate the effectiveness of ViewFusion in generating consistent
and detailed novel views.