Sintesi di nuove visuali e profondità senza addestramento con diffusione geometrica multi-visualizzazione.
Zero-Shot Novel View and Depth Synthesis with Multi-View Geometric Diffusion
January 30, 2025
Autori: Vitor Guizilini, Muhammad Zubair Irshad, Dian Chen, Greg Shakhnarovich, Rares Ambrus
cs.AI
Abstract
I metodi attuali per la ricostruzione di scene 3D da immagini posate sparse impiegano rappresentazioni 3D intermedie come campi neurali, griglie di voxel o Gaussiane 3D, per ottenere una consistenza multi-vista dell'aspetto e della geometria della scena. In questo articolo presentiamo MVGD, un'architettura basata sulla diffusione capace di generare direttamente a livello di pixel immagini e mappe di profondità da nuovi punti di vista, dati un numero arbitrario di viste di input. Il nostro metodo utilizza il condizionamento della raymap sia per arricchire le caratteristiche visive con informazioni spaziali da diversi punti di vista, sia per guidare la generazione di immagini e mappe di profondità da nuove viste. Un aspetto chiave del nostro approccio è la generazione multi-task di immagini e mappe di profondità, utilizzando embedding di compiti apprendibili per guidare il processo di diffusione verso specifiche modalità. Addestriamo questo modello su una collezione di oltre 60 milioni di campioni multi-vista da set di dati disponibili pubblicamente, e proponiamo tecniche per consentire un apprendimento efficiente e consistente in condizioni così diverse. Proponiamo inoltre una strategia innovativa che consente l'addestramento efficiente di modelli più grandi mediante il raffinamento incrementale di modelli più piccoli, con un comportamento di scalabilità promettente. Attraverso estesi esperimenti, riportiamo risultati all'avanguardia in molteplici benchmark di sintesi di nuove viste, nonché nella stima stereo multi-vista e nella stima della profondità video.
English
Current methods for 3D scene reconstruction from sparse posed images employ
intermediate 3D representations such as neural fields, voxel grids, or 3D
Gaussians, to achieve multi-view consistent scene appearance and geometry. In
this paper we introduce MVGD, a diffusion-based architecture capable of direct
pixel-level generation of images and depth maps from novel viewpoints, given an
arbitrary number of input views. Our method uses raymap conditioning to both
augment visual features with spatial information from different viewpoints, as
well as to guide the generation of images and depth maps from novel views. A
key aspect of our approach is the multi-task generation of images and depth
maps, using learnable task embeddings to guide the diffusion process towards
specific modalities. We train this model on a collection of more than 60
million multi-view samples from publicly available datasets, and propose
techniques to enable efficient and consistent learning in such diverse
conditions. We also propose a novel strategy that enables the efficient
training of larger models by incrementally fine-tuning smaller ones, with
promising scaling behavior. Through extensive experiments, we report
state-of-the-art results in multiple novel view synthesis benchmarks, as well
as multi-view stereo and video depth estimation.Summary
AI-Generated Summary