ChatPaper.aiChatPaper

Síntesis de Vista y Profundidad Novel sin Entrenamiento con Difusión Geométrica Multi-Vista

Zero-Shot Novel View and Depth Synthesis with Multi-View Geometric Diffusion

January 30, 2025
Autores: Vitor Guizilini, Muhammad Zubair Irshad, Dian Chen, Greg Shakhnarovich, Rares Ambrus
cs.AI

Resumen

Los métodos actuales para la reconstrucción de escenas 3D a partir de imágenes espaciadas emplean representaciones 3D intermedias como campos neuronales, rejillas de voxels o gaussianas 3D, para lograr una apariencia y geometría de escena coherentes desde múltiples vistas. En este artículo presentamos MVGD, una arquitectura basada en difusión capaz de generar directamente píxeles de imágenes y mapas de profundidad desde puntos de vista nuevos, dados un número arbitrario de vistas de entrada. Nuestro método utiliza condicionamiento de mapas de rayos para tanto aumentar las características visuales con información espacial de diferentes puntos de vista, como guiar la generación de imágenes y mapas de profundidad desde nuevas vistas. Un aspecto clave de nuestro enfoque es la generación multitarea de imágenes y mapas de profundidad, utilizando incrustaciones de tarea aprendibles para guiar el proceso de difusión hacia modalidades específicas. Entrenamos este modelo en una colección de más de 60 millones de muestras multi-vista de conjuntos de datos públicos, y proponemos técnicas para habilitar un aprendizaje eficiente y consistente en condiciones tan diversas. También proponemos una estrategia novedosa que permite el entrenamiento eficiente de modelos más grandes mediante el ajuste fino incremental de modelos más pequeños, con un comportamiento de escalado prometedor. A través de experimentos extensos, reportamos resultados de vanguardia en múltiples bancos de pruebas de síntesis de vistas nuevas, así como en estéreo multi-vista y estimación de profundidad en videos.
English
Current methods for 3D scene reconstruction from sparse posed images employ intermediate 3D representations such as neural fields, voxel grids, or 3D Gaussians, to achieve multi-view consistent scene appearance and geometry. In this paper we introduce MVGD, a diffusion-based architecture capable of direct pixel-level generation of images and depth maps from novel viewpoints, given an arbitrary number of input views. Our method uses raymap conditioning to both augment visual features with spatial information from different viewpoints, as well as to guide the generation of images and depth maps from novel views. A key aspect of our approach is the multi-task generation of images and depth maps, using learnable task embeddings to guide the diffusion process towards specific modalities. We train this model on a collection of more than 60 million multi-view samples from publicly available datasets, and propose techniques to enable efficient and consistent learning in such diverse conditions. We also propose a novel strategy that enables the efficient training of larger models by incrementally fine-tuning smaller ones, with promising scaling behavior. Through extensive experiments, we report state-of-the-art results in multiple novel view synthesis benchmarks, as well as multi-view stereo and video depth estimation.

Summary

AI-Generated Summary

PDF52February 3, 2025