Synthèse de nouvelles vues et de profondeur sans entraînement avec diffusion géométrique multi-vues
Zero-Shot Novel View and Depth Synthesis with Multi-View Geometric Diffusion
January 30, 2025
Auteurs: Vitor Guizilini, Muhammad Zubair Irshad, Dian Chen, Greg Shakhnarovich, Rares Ambrus
cs.AI
Résumé
Les méthodes actuelles de reconstruction de scènes 3D à partir d'images posées clairsemées utilisent des représentations 3D intermédiaires telles que les champs neuronaux, les grilles de voxels ou les Gaussiennes 3D, pour obtenir une apparence et une géométrie de scène cohérentes multi-vues. Dans cet article, nous introduisons MVGD, une architecture basée sur la diffusion capable de générer directement au niveau des pixels des images et des cartes de profondeur à partir de points de vue nouveaux, en utilisant un nombre arbitraire de vues d'entrée. Notre méthode utilise le conditionnement de la carte de rayons à la fois pour augmenter les caractéristiques visuelles avec des informations spatiales provenant de différents points de vue, et pour guider la génération d'images et de cartes de profondeur à partir de vues nouvelles. Un aspect clé de notre approche est la génération multi-tâches d'images et de cartes de profondeur, en utilisant des plongements de tâches apprenants pour guider le processus de diffusion vers des modalités spécifiques. Nous entraînons ce modèle sur une collection de plus de 60 millions d'échantillons multi-vues provenant de jeux de données disponibles publiquement, et proposons des techniques pour permettre un apprentissage efficace et cohérent dans de telles conditions diverses. Nous proposons également une stratégie novatrice qui permet l'entraînement efficace de modèles plus grands en affinant progressivement des modèles plus petits, avec un comportement de mise à l'échelle prometteur. À travers des expériences approfondies, nous rapportons des résultats de pointe dans plusieurs bancs d'essai de synthèse de vues nouvelles, ainsi que dans la stéréo multi-vues et l'estimation de profondeur vidéo.
English
Current methods for 3D scene reconstruction from sparse posed images employ
intermediate 3D representations such as neural fields, voxel grids, or 3D
Gaussians, to achieve multi-view consistent scene appearance and geometry. In
this paper we introduce MVGD, a diffusion-based architecture capable of direct
pixel-level generation of images and depth maps from novel viewpoints, given an
arbitrary number of input views. Our method uses raymap conditioning to both
augment visual features with spatial information from different viewpoints, as
well as to guide the generation of images and depth maps from novel views. A
key aspect of our approach is the multi-task generation of images and depth
maps, using learnable task embeddings to guide the diffusion process towards
specific modalities. We train this model on a collection of more than 60
million multi-view samples from publicly available datasets, and propose
techniques to enable efficient and consistent learning in such diverse
conditions. We also propose a novel strategy that enables the efficient
training of larger models by incrementally fine-tuning smaller ones, with
promising scaling behavior. Through extensive experiments, we report
state-of-the-art results in multiple novel view synthesis benchmarks, as well
as multi-view stereo and video depth estimation.Summary
AI-Generated Summary