Nullschuss-Novel-Ansicht und Tiefensynthese mit Multi-View-Geometrischer Diffusion
Zero-Shot Novel View and Depth Synthesis with Multi-View Geometric Diffusion
January 30, 2025
Autoren: Vitor Guizilini, Muhammad Zubair Irshad, Dian Chen, Greg Shakhnarovich, Rares Ambrus
cs.AI
Zusammenfassung
Aktuelle Methoden zur 3D-Szenenrekonstruktion aus spärlichen posierten Bildern verwenden Zwischen-3D-Repräsentationen wie neuronale Felder, Voxelgitter oder 3D-Gaußsche, um eine konsistente Mehransichtenszene in Erscheinung und Geometrie zu erreichen. In diesem Paper stellen wir MVGD vor, eine auf Diffusion basierende Architektur, die in der Lage ist, direkt auf Pixel-Ebene Bilder und Tiefenkarten aus neuen Blickwinkeln zu generieren, basierend auf einer beliebigen Anzahl von Eingabeblicken. Unsere Methode verwendet Raymap-Konditionierung, um visuelle Merkmale sowohl mit räumlichen Informationen aus verschiedenen Blickwinkeln zu erweitern, als auch um die Generierung von Bildern und Tiefenkarten aus neuen Ansichten zu lenken. Ein Schlüsselelement unseres Ansatzes ist die Mehrfachaufgaben-Generierung von Bildern und Tiefenkarten, wobei erlernbare Aufgaben-Einbettungen den Diffusionsprozess auf spezifische Modalitäten lenken. Wir trainieren dieses Modell anhand einer Sammlung von mehr als 60 Millionen Mehrblick-Mustern aus öffentlich verfügbaren Datensätzen und schlagen Techniken vor, um effizientes und konsistentes Lernen in solch vielfältigen Bedingungen zu ermöglichen. Wir schlagen auch eine neuartige Strategie vor, die das effiziente Training größerer Modelle durch inkrementelles Feinabstimmen kleinerer Modelle ermöglicht, mit vielversprechendem Skalierungsverhalten. Durch umfangreiche Experimente berichten wir über Spitzenleistung in mehreren Benchmarks zur Synthese neuer Ansichten sowie zur Mehrblick-Stereo- und Videotiefenschätzung.
English
Current methods for 3D scene reconstruction from sparse posed images employ
intermediate 3D representations such as neural fields, voxel grids, or 3D
Gaussians, to achieve multi-view consistent scene appearance and geometry. In
this paper we introduce MVGD, a diffusion-based architecture capable of direct
pixel-level generation of images and depth maps from novel viewpoints, given an
arbitrary number of input views. Our method uses raymap conditioning to both
augment visual features with spatial information from different viewpoints, as
well as to guide the generation of images and depth maps from novel views. A
key aspect of our approach is the multi-task generation of images and depth
maps, using learnable task embeddings to guide the diffusion process towards
specific modalities. We train this model on a collection of more than 60
million multi-view samples from publicly available datasets, and propose
techniques to enable efficient and consistent learning in such diverse
conditions. We also propose a novel strategy that enables the efficient
training of larger models by incrementally fine-tuning smaller ones, with
promising scaling behavior. Through extensive experiments, we report
state-of-the-art results in multiple novel view synthesis benchmarks, as well
as multi-view stereo and video depth estimation.Summary
AI-Generated Summary