ChatPaper.aiChatPaper

Sintesi di Nuove Viste ad Alta Fedeltà tramite Diffusione Guidata da Splatting

High-Fidelity Novel View Synthesis via Splatting-Guided Diffusion

February 18, 2025
Autori: Xiang Zhang, Yang Zhang, Lukas Mehl, Markus Gross, Christopher Schroers
cs.AI

Abstract

Nonostante i recenti progressi nella Sintesi di Nuove Viste (NVS), la generazione di viste ad alta fedeltà a partire da osservazioni singole o sparse rimane una sfida significativa. Gli approcci esistenti basati su splatting spesso producono geometrie distorte a causa di errori di splatting. Mentre i metodi basati su diffusione sfruttano ricchi prior 3D per ottenere una geometria migliorata, spesso soffrono di allucinazioni di texture. In questo articolo, introduciamo SplatDiff, un modello di diffusione video guidato da pixel-splatting progettato per sintetizzare nuove viste ad alta fedeltà da una singola immagine. Nello specifico, proponiamo una strategia di sintesi allineata per un controllo preciso dei punti di vista target e una sintesi di viste geometricamente coerenti. Per mitigare le allucinazioni di texture, progettiamo un modulo di ponte di texture che consente la generazione di texture ad alta fedeltà attraverso la fusione adattiva di feature. In questo modo, SplatDiff sfrutta i punti di forza dello splatting e della diffusione per generare nuove viste con geometria coerente e dettagli ad alta fedeltà. Esperimenti estensivi verificano le prestazioni all'avanguardia di SplatDiff nella NVS a vista singola. Inoltre, senza ulteriore addestramento, SplatDiff mostra prestazioni zero-shot notevoli in diverse attività, tra cui la NVS a vista sparsa e la conversione di video stereo.
English
Despite recent advances in Novel View Synthesis (NVS), generating high-fidelity views from single or sparse observations remains a significant challenge. Existing splatting-based approaches often produce distorted geometry due to splatting errors. While diffusion-based methods leverage rich 3D priors to achieve improved geometry, they often suffer from texture hallucination. In this paper, we introduce SplatDiff, a pixel-splatting-guided video diffusion model designed to synthesize high-fidelity novel views from a single image. Specifically, we propose an aligned synthesis strategy for precise control of target viewpoints and geometry-consistent view synthesis. To mitigate texture hallucination, we design a texture bridge module that enables high-fidelity texture generation through adaptive feature fusion. In this manner, SplatDiff leverages the strengths of splatting and diffusion to generate novel views with consistent geometry and high-fidelity details. Extensive experiments verify the state-of-the-art performance of SplatDiff in single-view NVS. Additionally, without extra training, SplatDiff shows remarkable zero-shot performance across diverse tasks, including sparse-view NVS and stereo video conversion.

Summary

AI-Generated Summary

PDF32February 20, 2025