ChatPaper.aiChatPaper

Synthèse de vues nouvelles haute fidélité via diffusion guidée par splatting

High-Fidelity Novel View Synthesis via Splatting-Guided Diffusion

February 18, 2025
Auteurs: Xiang Zhang, Yang Zhang, Lukas Mehl, Markus Gross, Christopher Schroers
cs.AI

Résumé

Malgré les récents progrès dans la synthèse de nouvelles vues (NVS), la génération de vues haute fidélité à partir d'observations uniques ou éparses reste un défi majeur. Les approches existantes basées sur le splatting produisent souvent une géométrie déformée en raison d'erreurs de splatting. Bien que les méthodes basées sur la diffusion exploitent des connaissances 3D riches pour améliorer la géométrie, elles souffrent souvent d'hallucinations de texture. Dans cet article, nous présentons SplatDiff, un modèle de diffusion vidéo guidé par pixel-splatting conçu pour synthétiser des vues nouvelles haute fidélité à partir d'une seule image. Plus précisément, nous proposons une stratégie de synthèse alignée pour un contrôle précis des points de vue cibles et une synthèse de vues cohérente en termes de géométrie. Pour atténuer les hallucinations de texture, nous concevons un module de pont de texture qui permet une génération de texture haute fidélité grâce à une fusion adaptative de caractéristiques. De cette manière, SplatDiff exploite les forces du splatting et de la diffusion pour générer des vues nouvelles avec une géométrie cohérente et des détails haute fidélité. Des expériences approfondies confirment les performances de pointe de SplatDiff dans la NVS à vue unique. De plus, sans entraînement supplémentaire, SplatDiff démontre des performances remarquables en généralisation zéro-shot à travers diverses tâches, y compris la NVS à vues éparses et la conversion de vidéo stéréo.
English
Despite recent advances in Novel View Synthesis (NVS), generating high-fidelity views from single or sparse observations remains a significant challenge. Existing splatting-based approaches often produce distorted geometry due to splatting errors. While diffusion-based methods leverage rich 3D priors to achieve improved geometry, they often suffer from texture hallucination. In this paper, we introduce SplatDiff, a pixel-splatting-guided video diffusion model designed to synthesize high-fidelity novel views from a single image. Specifically, we propose an aligned synthesis strategy for precise control of target viewpoints and geometry-consistent view synthesis. To mitigate texture hallucination, we design a texture bridge module that enables high-fidelity texture generation through adaptive feature fusion. In this manner, SplatDiff leverages the strengths of splatting and diffusion to generate novel views with consistent geometry and high-fidelity details. Extensive experiments verify the state-of-the-art performance of SplatDiff in single-view NVS. Additionally, without extra training, SplatDiff shows remarkable zero-shot performance across diverse tasks, including sparse-view NVS and stereo video conversion.

Summary

AI-Generated Summary

PDF32February 20, 2025