ChatPaper.aiChatPaper

ViewFusion: Auf dem Weg zur Multi-View-Konsistenz durch interpolierte Entrauschung

ViewFusion: Towards Multi-View Consistency via Interpolated Denoising

February 29, 2024
Autoren: Xianghui Yang, Yan Zuo, Sameera Ramasinghe, Loris Bazzani, Gil Avraham, Anton van den Hengel
cs.AI

Zusammenfassung

Die Synthese neuer Ansichten durch Diffusionsmodelle hat ein bemerkenswertes Potenzial für die Erzeugung vielfältiger und hochwertiger Bilder gezeigt. Dennoch führt der unabhängige Prozess der Bildgenerierung in diesen vorherrschenden Methoden zu Herausforderungen bei der Aufrechterhaltung der Mehransichtskonsistenz. Um dies zu adressieren, stellen wir ViewFusion vor, einen neuartigen, trainingsfreien Algorithmus, der nahtlos in bestehende vortrainierte Diffusionsmodelle integriert werden kann. Unser Ansatz verwendet eine autoregressive Methode, die implizit zuvor generierte Ansichten als Kontext für die nächste Ansichtsgenerierung nutzt und so eine robuste Mehransichtskonsistenz während des Prozesses der neuen Ansichtsgenerierung gewährleistet. Durch einen Diffusionsprozess, der bekannte Ansichtsinformationen über interpolierte Entrauschung fusioniert, erweitert unser Framework erfolgreich Einzelansicht-bedingte Modelle, um in Mehransicht-bedingten Einstellungen zu arbeiten, ohne zusätzliches Fein-Tuning. Umfangreiche experimentelle Ergebnisse demonstrieren die Wirksamkeit von ViewFusion bei der Erzeugung konsistenter und detaillierter neuer Ansichten.
English
Novel-view synthesis through diffusion models has demonstrated remarkable potential for generating diverse and high-quality images. Yet, the independent process of image generation in these prevailing methods leads to challenges in maintaining multiple-view consistency. To address this, we introduce ViewFusion, a novel, training-free algorithm that can be seamlessly integrated into existing pre-trained diffusion models. Our approach adopts an auto-regressive method that implicitly leverages previously generated views as context for the next view generation, ensuring robust multi-view consistency during the novel-view generation process. Through a diffusion process that fuses known-view information via interpolated denoising, our framework successfully extends single-view conditioned models to work in multiple-view conditional settings without any additional fine-tuning. Extensive experimental results demonstrate the effectiveness of ViewFusion in generating consistent and detailed novel views.
PDF151December 15, 2024