ChatPaper.aiChatPaper

Synthèse de nouvelles vues et de profondeur sans entraînement avec diffusion géométrique multi-vues

Zero-Shot Novel View and Depth Synthesis with Multi-View Geometric Diffusion

January 30, 2025
Auteurs: Vitor Guizilini, Muhammad Zubair Irshad, Dian Chen, Greg Shakhnarovich, Rares Ambrus
cs.AI

Résumé

Les méthodes actuelles de reconstruction de scènes 3D à partir d'images posées clairsemées utilisent des représentations 3D intermédiaires telles que les champs neuronaux, les grilles de voxels ou les Gaussiennes 3D, pour obtenir une apparence et une géométrie de scène cohérentes multi-vues. Dans cet article, nous introduisons MVGD, une architecture basée sur la diffusion capable de générer directement au niveau des pixels des images et des cartes de profondeur à partir de points de vue nouveaux, en utilisant un nombre arbitraire de vues d'entrée. Notre méthode utilise le conditionnement de la carte de rayons à la fois pour augmenter les caractéristiques visuelles avec des informations spatiales provenant de différents points de vue, et pour guider la génération d'images et de cartes de profondeur à partir de vues nouvelles. Un aspect clé de notre approche est la génération multi-tâches d'images et de cartes de profondeur, en utilisant des plongements de tâches apprenants pour guider le processus de diffusion vers des modalités spécifiques. Nous entraînons ce modèle sur une collection de plus de 60 millions d'échantillons multi-vues provenant de jeux de données disponibles publiquement, et proposons des techniques pour permettre un apprentissage efficace et cohérent dans de telles conditions diverses. Nous proposons également une stratégie novatrice qui permet l'entraînement efficace de modèles plus grands en affinant progressivement des modèles plus petits, avec un comportement de mise à l'échelle prometteur. À travers des expériences approfondies, nous rapportons des résultats de pointe dans plusieurs bancs d'essai de synthèse de vues nouvelles, ainsi que dans la stéréo multi-vues et l'estimation de profondeur vidéo.
English
Current methods for 3D scene reconstruction from sparse posed images employ intermediate 3D representations such as neural fields, voxel grids, or 3D Gaussians, to achieve multi-view consistent scene appearance and geometry. In this paper we introduce MVGD, a diffusion-based architecture capable of direct pixel-level generation of images and depth maps from novel viewpoints, given an arbitrary number of input views. Our method uses raymap conditioning to both augment visual features with spatial information from different viewpoints, as well as to guide the generation of images and depth maps from novel views. A key aspect of our approach is the multi-task generation of images and depth maps, using learnable task embeddings to guide the diffusion process towards specific modalities. We train this model on a collection of more than 60 million multi-view samples from publicly available datasets, and propose techniques to enable efficient and consistent learning in such diverse conditions. We also propose a novel strategy that enables the efficient training of larger models by incrementally fine-tuning smaller ones, with promising scaling behavior. Through extensive experiments, we report state-of-the-art results in multiple novel view synthesis benchmarks, as well as multi-view stereo and video depth estimation.

Summary

AI-Generated Summary

PDF52February 3, 2025