ChatPaper.aiChatPaper

Síntesis de Vistas Novedosas de Alta Fidelidad mediante Difusión Guiada por Splatting

High-Fidelity Novel View Synthesis via Splatting-Guided Diffusion

February 18, 2025
Autores: Xiang Zhang, Yang Zhang, Lukas Mehl, Markus Gross, Christopher Schroers
cs.AI

Resumen

A pesar de los recientes avances en la Síntesis de Nuevas Vistas (NVS, por sus siglas en inglés), generar vistas de alta fidelidad a partir de observaciones únicas o escasas sigue siendo un desafío significativo. Los enfoques basados en splatting (proyección de partículas) existentes a menudo producen geometría distorsionada debido a errores en el splatting. Mientras que los métodos basados en difusión aprovechan ricos conocimientos previos en 3D para lograr una geometría mejorada, suelen sufrir de alucinación de texturas. En este artículo, presentamos SplatDiff, un modelo de difusión de video guiado por splatting de píxeles diseñado para sintetizar vistas novedosas de alta fidelidad a partir de una sola imagen. Específicamente, proponemos una estrategia de síntesis alineada para un control preciso de los puntos de vista objetivo y la síntesis de vistas con geometría consistente. Para mitigar la alucinación de texturas, diseñamos un módulo de puente de texturas que permite la generación de texturas de alta fidelidad mediante la fusión adaptativa de características. De esta manera, SplatDiff aprovecha las fortalezas del splatting y la difusión para generar vistas novedosas con geometría consistente y detalles de alta fidelidad. Experimentos exhaustivos verifican el rendimiento de vanguardia de SplatDiff en NVS de vista única. Además, sin entrenamiento adicional, SplatDiff muestra un rendimiento notable en tareas diversas, incluyendo NVS de vistas escasas y conversión de video estéreo.
English
Despite recent advances in Novel View Synthesis (NVS), generating high-fidelity views from single or sparse observations remains a significant challenge. Existing splatting-based approaches often produce distorted geometry due to splatting errors. While diffusion-based methods leverage rich 3D priors to achieve improved geometry, they often suffer from texture hallucination. In this paper, we introduce SplatDiff, a pixel-splatting-guided video diffusion model designed to synthesize high-fidelity novel views from a single image. Specifically, we propose an aligned synthesis strategy for precise control of target viewpoints and geometry-consistent view synthesis. To mitigate texture hallucination, we design a texture bridge module that enables high-fidelity texture generation through adaptive feature fusion. In this manner, SplatDiff leverages the strengths of splatting and diffusion to generate novel views with consistent geometry and high-fidelity details. Extensive experiments verify the state-of-the-art performance of SplatDiff in single-view NVS. Additionally, without extra training, SplatDiff shows remarkable zero-shot performance across diverse tasks, including sparse-view NVS and stereo video conversion.

Summary

AI-Generated Summary

PDF32February 20, 2025