ChatPaper.aiChatPaper

Hoogwaardige Nieuwe Beeldsynthese via Splatting-Gestuurde Diffusie

High-Fidelity Novel View Synthesis via Splatting-Guided Diffusion

February 18, 2025
Auteurs: Xiang Zhang, Yang Zhang, Lukas Mehl, Markus Gross, Christopher Schroers
cs.AI

Samenvatting

Ondanks recente vooruitgang in Novel View Synthesis (NVS) blijft het genereren van hoogwaardige beelden vanuit enkele of schaarse observaties een aanzienlijke uitdaging. Bestaande op splatting gebaseerde benaderingen produceren vaak vervormde geometrie door splattingfouten. Hoewel op diffusie gebaseerde methoden rijke 3D-priors benutten om een verbeterde geometrie te bereiken, lijden ze vaak onder texture hallucinatie. In dit artikel introduceren we SplatDiff, een op pixel-splatting gebaseerd videodiffusiemodel dat is ontworpen om hoogwaardige nieuwe beelden te synthetiseren vanuit een enkele afbeelding. Specifiek stellen we een uitgelijnde synthesestrategie voor voor precieze controle van doelperspectieven en geometrie-consistente beeldsynthese. Om texture hallucinatie te verminderen, ontwerpen we een texture bridge module die hoogwaardige texturegeneratie mogelijk maakt door adaptieve featurefusie. Op deze manier benut SplatDiff de sterke punten van splatting en diffusie om nieuwe beelden te genereren met consistente geometrie en hoogwaardige details. Uitgebreide experimenten bevestigen de state-of-the-art prestaties van SplatDiff in single-view NVS. Daarnaast toont SplatDiff, zonder extra training, opmerkelijke zero-shot prestaties in diverse taken, waaronder sparse-view NVS en stereo videoconversie.
English
Despite recent advances in Novel View Synthesis (NVS), generating high-fidelity views from single or sparse observations remains a significant challenge. Existing splatting-based approaches often produce distorted geometry due to splatting errors. While diffusion-based methods leverage rich 3D priors to achieve improved geometry, they often suffer from texture hallucination. In this paper, we introduce SplatDiff, a pixel-splatting-guided video diffusion model designed to synthesize high-fidelity novel views from a single image. Specifically, we propose an aligned synthesis strategy for precise control of target viewpoints and geometry-consistent view synthesis. To mitigate texture hallucination, we design a texture bridge module that enables high-fidelity texture generation through adaptive feature fusion. In this manner, SplatDiff leverages the strengths of splatting and diffusion to generate novel views with consistent geometry and high-fidelity details. Extensive experiments verify the state-of-the-art performance of SplatDiff in single-view NVS. Additionally, without extra training, SplatDiff shows remarkable zero-shot performance across diverse tasks, including sparse-view NVS and stereo video conversion.

Summary

AI-Generated Summary

PDF32February 20, 2025