Sintesi di nuove visuali e profondità senza addestramento con diffusione geometrica multi-visualizzazione.

Abstract

I metodi attuali per la ricostruzione di scene 3D da immagini posate sparse impiegano rappresentazioni 3D intermedie come campi neurali, griglie di voxel o Gaussiane 3D, per ottenere una consistenza multi-vista dell'aspetto e della geometria della scena. In questo articolo presentiamo MVGD, un'architettura basata sulla diffusione capace di generare direttamente a livello di pixel immagini e mappe di profondità da nuovi punti di vista, dati un numero arbitrario di viste di input. Il nostro metodo utilizza il condizionamento della raymap sia per arricchire le caratteristiche visive con informazioni spaziali da diversi punti di vista, sia per guidare la generazione di immagini e mappe di profondità da nuove viste. Un aspetto chiave del nostro approccio è la generazione multi-task di immagini e mappe di profondità, utilizzando embedding di compiti apprendibili per guidare il processo di diffusione verso specifiche modalità. Addestriamo questo modello su una collezione di oltre 60 milioni di campioni multi-vista da set di dati disponibili pubblicamente, e proponiamo tecniche per consentire un apprendimento efficiente e consistente in condizioni così diverse. Proponiamo inoltre una strategia innovativa che consente l'addestramento efficiente di modelli più grandi mediante il raffinamento incrementale di modelli più piccoli, con un comportamento di scalabilità promettente. Attraverso estesi esperimenti, riportiamo risultati all'avanguardia in molteplici benchmark di sintesi di nuove viste, nonché nella stima stereo multi-vista e nella stima della profondità video.

English

Current methods for 3D scene reconstruction from sparse posed images employ intermediate 3D representations such as neural fields, voxel grids, or 3D Gaussians, to achieve multi-view consistent scene appearance and geometry. In this paper we introduce MVGD, a diffusion-based architecture capable of direct pixel-level generation of images and depth maps from novel viewpoints, given an arbitrary number of input views. Our method uses raymap conditioning to both augment visual features with spatial information from different viewpoints, as well as to guide the generation of images and depth maps from novel views. A key aspect of our approach is the multi-task generation of images and depth maps, using learnable task embeddings to guide the diffusion process towards specific modalities. We train this model on a collection of more than 60 million multi-view samples from publicly available datasets, and propose techniques to enable efficient and consistent learning in such diverse conditions. We also propose a novel strategy that enables the efficient training of larger models by incrementally fine-tuning smaller ones, with promising scaling behavior. Through extensive experiments, we report state-of-the-art results in multiple novel view synthesis benchmarks, as well as multi-view stereo and video depth estimation.

Sintesi di nuove visuali e profondità senza addestramento con diffusione geometrica multi-visualizzazione.

Zero-Shot Novel View and Depth Synthesis with Multi-View Geometric Diffusion

Abstract

Support