Hochqualitative Neuansichtssynthese durch Splatting-geführte Diffusion

papers.abstract

Trotz jüngster Fortschritte in der Synthese neuer Ansichten (Novel View Synthesis, NVS) bleibt die Erzeugung hochwertiger Ansichten aus einzelnen oder spärlichen Beobachtungen eine erhebliche Herausforderung. Bestehende, auf Splatting basierende Ansätze erzeugen oft verzerrte Geometrien aufgrund von Splatting-Fehlern. Während diffusionsbasierte Methoden reichhaltige 3D-Priors nutzen, um eine verbesserte Geometrie zu erreichen, leiden sie häufig unter Texturhalluzinationen. In diesem Artikel stellen wir SplatDiff vor, ein pixel-splatting-gesteuertes Video-Diffusionsmodell, das darauf ausgelegt ist, hochwertige neue Ansichten aus einem einzelnen Bild zu synthetisieren. Insbesondere schlagen wir eine ausgerichtete Synthesestrategie vor, um eine präzise Steuerung der Zielansichten und eine geometriekonsistente Ansichtssynthese zu ermöglichen. Um Texturhalluzinationen zu minimieren, entwerfen wir ein Texturbrückenmodul, das eine hochwertige Texturgenerierung durch adaptive Feature-Fusion ermöglicht. Auf diese Weise nutzt SplatDiff die Stärken von Splatting und Diffusion, um neue Ansichten mit konsistenter Geometrie und hochwertigen Details zu erzeugen. Umfangreiche Experimente bestätigen die state-of-the-art Leistung von SplatDiff in der Einzelansicht-NVS. Darüber hinaus zeigt SplatDiff ohne zusätzliches Training bemerkenswerte Zero-Shot-Leistungen in verschiedenen Aufgaben, darunter spärliche Ansicht-NVS und Stereo-Videokonvertierung.

English

Despite recent advances in Novel View Synthesis (NVS), generating high-fidelity views from single or sparse observations remains a significant challenge. Existing splatting-based approaches often produce distorted geometry due to splatting errors. While diffusion-based methods leverage rich 3D priors to achieve improved geometry, they often suffer from texture hallucination. In this paper, we introduce SplatDiff, a pixel-splatting-guided video diffusion model designed to synthesize high-fidelity novel views from a single image. Specifically, we propose an aligned synthesis strategy for precise control of target viewpoints and geometry-consistent view synthesis. To mitigate texture hallucination, we design a texture bridge module that enables high-fidelity texture generation through adaptive feature fusion. In this manner, SplatDiff leverages the strengths of splatting and diffusion to generate novel views with consistent geometry and high-fidelity details. Extensive experiments verify the state-of-the-art performance of SplatDiff in single-view NVS. Additionally, without extra training, SplatDiff shows remarkable zero-shot performance across diverse tasks, including sparse-view NVS and stereo video conversion.

Hochqualitative Neuansichtssynthese durch Splatting-geführte Diffusion

High-Fidelity Novel View Synthesis via Splatting-Guided Diffusion

papers.abstract

Support