Síntese de Novas Visões de Alta Fidelidade via Difusão Orientada por Splatting
High-Fidelity Novel View Synthesis via Splatting-Guided Diffusion
February 18, 2025
Autores: Xiang Zhang, Yang Zhang, Lukas Mehl, Markus Gross, Christopher Schroers
cs.AI
Resumo
Apesar dos avanços recentes em Síntese de Novas Visões (NVS), a geração de visões de alta fidelidade a partir de observações únicas ou esparsas continua sendo um desafio significativo. As abordagens baseadas em splatting existentes frequentemente produzem geometria distorcida devido a erros de splatting. Enquanto métodos baseados em difusão aproveitam priors 3D ricos para alcançar geometria melhorada, eles frequentemente sofrem com alucinação de textura. Neste artigo, apresentamos o SplatDiff, um modelo de difusão de vídeo guiado por pixel-splatting projetado para sintetizar novas visões de alta fidelidade a partir de uma única imagem. Especificamente, propomos uma estratégia de síntese alinhada para controle preciso de pontos de vista alvo e síntese de visão consistente em geometria. Para mitigar a alucinação de textura, projetamos um módulo de ponte de textura que permite a geração de textura de alta fidelidade por meio de fusão adaptativa de características. Dessa forma, o SplatDiff aproveita os pontos fortes do splatting e da difusão para gerar novas visões com geometria consistente e detalhes de alta fidelidade. Experimentos extensivos verificam o desempenho de ponta do SplatDiff em NVS de visão única. Além disso, sem treinamento adicional, o SplatDiff demonstra um desempenho notável em tarefas diversas, incluindo NVS de visão esparsa e conversão de vídeo estéreo.
English
Despite recent advances in Novel View Synthesis (NVS), generating
high-fidelity views from single or sparse observations remains a significant
challenge. Existing splatting-based approaches often produce distorted geometry
due to splatting errors. While diffusion-based methods leverage rich 3D priors
to achieve improved geometry, they often suffer from texture hallucination. In
this paper, we introduce SplatDiff, a pixel-splatting-guided video diffusion
model designed to synthesize high-fidelity novel views from a single image.
Specifically, we propose an aligned synthesis strategy for precise control of
target viewpoints and geometry-consistent view synthesis. To mitigate texture
hallucination, we design a texture bridge module that enables high-fidelity
texture generation through adaptive feature fusion. In this manner, SplatDiff
leverages the strengths of splatting and diffusion to generate novel views with
consistent geometry and high-fidelity details. Extensive experiments verify the
state-of-the-art performance of SplatDiff in single-view NVS. Additionally,
without extra training, SplatDiff shows remarkable zero-shot performance across
diverse tasks, including sparse-view NVS and stereo video conversion.Summary
AI-Generated Summary