ViewFusion: Auf dem Weg zur Multi-View-Konsistenz durch interpolierte Entrauschung
ViewFusion: Towards Multi-View Consistency via Interpolated Denoising
February 29, 2024
Autoren: Xianghui Yang, Yan Zuo, Sameera Ramasinghe, Loris Bazzani, Gil Avraham, Anton van den Hengel
cs.AI
Zusammenfassung
Die Synthese neuer Ansichten durch Diffusionsmodelle hat ein bemerkenswertes Potenzial für die Erzeugung vielfältiger und hochwertiger Bilder gezeigt. Dennoch führt der unabhängige Prozess der Bildgenerierung in diesen vorherrschenden Methoden zu Herausforderungen bei der Aufrechterhaltung der Mehransichtskonsistenz. Um dies zu adressieren, stellen wir ViewFusion vor, einen neuartigen, trainingsfreien Algorithmus, der nahtlos in bestehende vortrainierte Diffusionsmodelle integriert werden kann. Unser Ansatz verwendet eine autoregressive Methode, die implizit zuvor generierte Ansichten als Kontext für die nächste Ansichtsgenerierung nutzt und so eine robuste Mehransichtskonsistenz während des Prozesses der neuen Ansichtsgenerierung gewährleistet. Durch einen Diffusionsprozess, der bekannte Ansichtsinformationen über interpolierte Entrauschung fusioniert, erweitert unser Framework erfolgreich Einzelansicht-bedingte Modelle, um in Mehransicht-bedingten Einstellungen zu arbeiten, ohne zusätzliches Fein-Tuning. Umfangreiche experimentelle Ergebnisse demonstrieren die Wirksamkeit von ViewFusion bei der Erzeugung konsistenter und detaillierter neuer Ansichten.
English
Novel-view synthesis through diffusion models has demonstrated remarkable
potential for generating diverse and high-quality images. Yet, the independent
process of image generation in these prevailing methods leads to challenges in
maintaining multiple-view consistency. To address this, we introduce
ViewFusion, a novel, training-free algorithm that can be seamlessly integrated
into existing pre-trained diffusion models. Our approach adopts an
auto-regressive method that implicitly leverages previously generated views as
context for the next view generation, ensuring robust multi-view consistency
during the novel-view generation process. Through a diffusion process that
fuses known-view information via interpolated denoising, our framework
successfully extends single-view conditioned models to work in multiple-view
conditional settings without any additional fine-tuning. Extensive experimental
results demonstrate the effectiveness of ViewFusion in generating consistent
and detailed novel views.