Hochqualitative Neuansichtssynthese durch Splatting-geführte Diffusion
High-Fidelity Novel View Synthesis via Splatting-Guided Diffusion
February 18, 2025
Autoren: Xiang Zhang, Yang Zhang, Lukas Mehl, Markus Gross, Christopher Schroers
cs.AI
Zusammenfassung
Trotz jüngster Fortschritte in der Synthese neuer Ansichten (Novel View Synthesis, NVS) bleibt die Erzeugung hochwertiger Ansichten aus einzelnen oder spärlichen Beobachtungen eine erhebliche Herausforderung. Bestehende, auf Splatting basierende Ansätze erzeugen oft verzerrte Geometrien aufgrund von Splatting-Fehlern. Während diffusionsbasierte Methoden reichhaltige 3D-Priors nutzen, um eine verbesserte Geometrie zu erreichen, leiden sie häufig unter Texturhalluzinationen. In diesem Artikel stellen wir SplatDiff vor, ein pixel-splatting-gesteuertes Video-Diffusionsmodell, das darauf ausgelegt ist, hochwertige neue Ansichten aus einem einzelnen Bild zu synthetisieren. Insbesondere schlagen wir eine ausgerichtete Synthesestrategie vor, um eine präzise Steuerung der Zielansichten und eine geometriekonsistente Ansichtssynthese zu ermöglichen. Um Texturhalluzinationen zu minimieren, entwerfen wir ein Texturbrückenmodul, das eine hochwertige Texturgenerierung durch adaptive Feature-Fusion ermöglicht. Auf diese Weise nutzt SplatDiff die Stärken von Splatting und Diffusion, um neue Ansichten mit konsistenter Geometrie und hochwertigen Details zu erzeugen. Umfangreiche Experimente bestätigen die state-of-the-art Leistung von SplatDiff in der Einzelansicht-NVS. Darüber hinaus zeigt SplatDiff ohne zusätzliches Training bemerkenswerte Zero-Shot-Leistungen in verschiedenen Aufgaben, darunter spärliche Ansicht-NVS und Stereo-Videokonvertierung.
English
Despite recent advances in Novel View Synthesis (NVS), generating
high-fidelity views from single or sparse observations remains a significant
challenge. Existing splatting-based approaches often produce distorted geometry
due to splatting errors. While diffusion-based methods leverage rich 3D priors
to achieve improved geometry, they often suffer from texture hallucination. In
this paper, we introduce SplatDiff, a pixel-splatting-guided video diffusion
model designed to synthesize high-fidelity novel views from a single image.
Specifically, we propose an aligned synthesis strategy for precise control of
target viewpoints and geometry-consistent view synthesis. To mitigate texture
hallucination, we design a texture bridge module that enables high-fidelity
texture generation through adaptive feature fusion. In this manner, SplatDiff
leverages the strengths of splatting and diffusion to generate novel views with
consistent geometry and high-fidelity details. Extensive experiments verify the
state-of-the-art performance of SplatDiff in single-view NVS. Additionally,
without extra training, SplatDiff shows remarkable zero-shot performance across
diverse tasks, including sparse-view NVS and stereo video conversion.Summary
AI-Generated Summary