Синтез нового ракурса и глубины без обучения на примерах с использованием многопроекционной геометрической диффузии
Zero-Shot Novel View and Depth Synthesis with Multi-View Geometric Diffusion
January 30, 2025
Авторы: Vitor Guizilini, Muhammad Zubair Irshad, Dian Chen, Greg Shakhnarovich, Rares Ambrus
cs.AI
Аннотация
Существующие методы реконструкции трёхмерных сцен из разреженных поставленных изображений используют промежуточные трёхмерные представления, такие как нейронные поля, воксельные сетки или трёхмерные гауссианы, для достижения согласованного многокамерного вида сцены и геометрии. В данной статье мы представляем MVGD, архитектуру на основе диффузии, способную к прямому пиксельному созданию изображений и карт глубины с новых точек зрения, учитывая произвольное количество входных видов. Наш метод использует условие raymap как для дополнения визуальных признаков пространственной информацией с различных точек зрения, так и для направления создания изображений и карт глубины с новых видов. Ключевым аспектом нашего подхода является многозадачное создание изображений и карт глубины, используя обучаемые вложения задач для направления процесса диффузии к конкретным модальностям. Мы обучаем эту модель на коллекции более 60 миллионов многокамерных образцов из общедоступных наборов данных и предлагаем техники для обеспечения эффективного и согласованного обучения в таких разнообразных условиях. Мы также предлагаем новую стратегию, которая позволяет эффективное обучение более крупных моделей путем поэтапного донастройки более мелких, с обещающим масштабированием. Через обширные эксперименты мы сообщаем о результатах, превосходящих существующие результаты, в нескольких бенчмарках синтеза новых видов, а также в многокамерной стереофотограмметрии и оценке глубины видео.
English
Current methods for 3D scene reconstruction from sparse posed images employ
intermediate 3D representations such as neural fields, voxel grids, or 3D
Gaussians, to achieve multi-view consistent scene appearance and geometry. In
this paper we introduce MVGD, a diffusion-based architecture capable of direct
pixel-level generation of images and depth maps from novel viewpoints, given an
arbitrary number of input views. Our method uses raymap conditioning to both
augment visual features with spatial information from different viewpoints, as
well as to guide the generation of images and depth maps from novel views. A
key aspect of our approach is the multi-task generation of images and depth
maps, using learnable task embeddings to guide the diffusion process towards
specific modalities. We train this model on a collection of more than 60
million multi-view samples from publicly available datasets, and propose
techniques to enable efficient and consistent learning in such diverse
conditions. We also propose a novel strategy that enables the efficient
training of larger models by incrementally fine-tuning smaller ones, with
promising scaling behavior. Through extensive experiments, we report
state-of-the-art results in multiple novel view synthesis benchmarks, as well
as multi-view stereo and video depth estimation.Summary
AI-Generated Summary