Zero-Shot Novel View en Dieptesynthese met Multi-View Geometrische Diffusie
Zero-Shot Novel View and Depth Synthesis with Multi-View Geometric Diffusion
January 30, 2025
Auteurs: Vitor Guizilini, Muhammad Zubair Irshad, Dian Chen, Greg Shakhnarovich, Rares Ambrus
cs.AI
Samenvatting
Huidige methoden voor 3D-scene reconstructie van schaarse geposeerde afbeeldingen maken gebruik van tussenliggende 3D representaties zoals neurale velden, voxelrasters of 3D-Gaussianen, om een consistente scene verschijning en geometrie vanuit meerdere gezichtspunten te bereiken. In dit artikel introduceren we MVGD, een op diffusie gebaseerde architectuur die in staat is om direct op pixelniveau afbeeldingen en dieptekaarten te genereren vanuit nieuwe gezichtspunten, gegeven een willekeurig aantal invoerweergaven. Onze methode maakt gebruik van raymap-conditionering om zowel visuele kenmerken aan te vullen met ruimtelijke informatie vanuit verschillende gezichtspunten, als om de generatie van afbeeldingen en dieptekaarten van nieuwe gezichtspunten te sturen. Een belangrijk aspect van onze benadering is de multi-task generatie van afbeeldingen en dieptekaarten, waarbij leerzame taak-embeddings worden gebruikt om het diffusieproces naar specifieke modaliteiten te sturen. We trainen dit model op een verzameling van meer dan 60 miljoen multi-view monsters uit openbaar beschikbare datasets, en stellen technieken voor om efficiënt en consistent leren in dergelijke diverse omstandigheden mogelijk te maken. We stellen ook een nieuwe strategie voor die het efficiënt trainen van grotere modellen mogelijk maakt door incrementele verfijning van kleinere modellen, met veelbelovend schaalgedrag. Via uitgebreide experimenten rapporteren we state-of-the-art resultaten in meerdere benchmarks voor synthese van nieuwe gezichtspunten, evenals multi-view stereo en video diepteschatting.
English
Current methods for 3D scene reconstruction from sparse posed images employ
intermediate 3D representations such as neural fields, voxel grids, or 3D
Gaussians, to achieve multi-view consistent scene appearance and geometry. In
this paper we introduce MVGD, a diffusion-based architecture capable of direct
pixel-level generation of images and depth maps from novel viewpoints, given an
arbitrary number of input views. Our method uses raymap conditioning to both
augment visual features with spatial information from different viewpoints, as
well as to guide the generation of images and depth maps from novel views. A
key aspect of our approach is the multi-task generation of images and depth
maps, using learnable task embeddings to guide the diffusion process towards
specific modalities. We train this model on a collection of more than 60
million multi-view samples from publicly available datasets, and propose
techniques to enable efficient and consistent learning in such diverse
conditions. We also propose a novel strategy that enables the efficient
training of larger models by incrementally fine-tuning smaller ones, with
promising scaling behavior. Through extensive experiments, we report
state-of-the-art results in multiple novel view synthesis benchmarks, as well
as multi-view stereo and video depth estimation.Summary
AI-Generated Summary