ChatPaper.aiChatPaper

Síntese de Visualização e Profundidade de Novos Ângulos sem Necessidade de Treinamento com Difusão Geométrica de Múltiplas Visualizações

Zero-Shot Novel View and Depth Synthesis with Multi-View Geometric Diffusion

January 30, 2025
Autores: Vitor Guizilini, Muhammad Zubair Irshad, Dian Chen, Greg Shakhnarovich, Rares Ambrus
cs.AI

Resumo

Os métodos atuais para reconstrução de cenas 3D a partir de imagens esparsas com poses empregam representações 3D intermediárias, como campos neurais, grades de voxels ou gaussianas 3D, para alcançar uma aparência e geometria de cena consistente entre múltiplas visualizações. Neste artigo, apresentamos o MVGD, uma arquitetura baseada em difusão capaz de geração direta de imagens e mapas de profundidade a nível de pixel a partir de novos pontos de vista, dado um número arbitrário de visualizações de entrada. Nosso método utiliza condicionamento de mapas de raios para tanto aumentar as características visuais com informações espaciais de diferentes pontos de vista, quanto guiar a geração de imagens e mapas de profundidade a partir de novos pontos de vista. Um aspecto chave de nossa abordagem é a geração multi-tarefa de imagens e mapas de profundidade, utilizando incrustações de tarefas aprendíveis para guiar o processo de difusão em direção a modalidades específicas. Treinamos este modelo em uma coleção de mais de 60 milhões de amostras multi-visualização de conjuntos de dados publicamente disponíveis, e propomos técnicas para permitir aprendizado eficiente e consistente em condições tão diversas. Também propomos uma estratégia inovadora que possibilita o treinamento eficiente de modelos maiores através do ajuste fino incremental de modelos menores, com um comportamento de escalonamento promissor. Através de experimentos extensivos, relatamos resultados de ponta em múltiplos benchmarks de síntese de novos pontos de vista, bem como estéreo multi-visualização e estimativa de profundidade em vídeos.
English
Current methods for 3D scene reconstruction from sparse posed images employ intermediate 3D representations such as neural fields, voxel grids, or 3D Gaussians, to achieve multi-view consistent scene appearance and geometry. In this paper we introduce MVGD, a diffusion-based architecture capable of direct pixel-level generation of images and depth maps from novel viewpoints, given an arbitrary number of input views. Our method uses raymap conditioning to both augment visual features with spatial information from different viewpoints, as well as to guide the generation of images and depth maps from novel views. A key aspect of our approach is the multi-task generation of images and depth maps, using learnable task embeddings to guide the diffusion process towards specific modalities. We train this model on a collection of more than 60 million multi-view samples from publicly available datasets, and propose techniques to enable efficient and consistent learning in such diverse conditions. We also propose a novel strategy that enables the efficient training of larger models by incrementally fine-tuning smaller ones, with promising scaling behavior. Through extensive experiments, we report state-of-the-art results in multiple novel view synthesis benchmarks, as well as multi-view stereo and video depth estimation.

Summary

AI-Generated Summary

PDF52February 3, 2025