ChatPaper.aiChatPaper

MVDiffusion++: Um Modelo de Difusão Multi-visão Denso de Alta Resolução para Reconstrução 3D de Objetos com Visão Única ou Esparsa

MVDiffusion++: A Dense High-resolution Multi-view Diffusion Model for Single or Sparse-view 3D Object Reconstruction

February 20, 2024
Autores: Shitao Tang, Jiacheng Chen, Dilin Wang, Chengzhou Tang, Fuyang Zhang, Yuchen Fan, Vikas Chandra, Yasutaka Furukawa, Rakesh Ranjan
cs.AI

Resumo

Este artigo apresenta uma arquitetura neural chamada MVDiffusion++ para reconstrução de objetos 3D que sintetiza visões densas e de alta resolução de um objeto a partir de uma ou poucas imagens, sem a necessidade de poses da câmera. O MVDiffusion++ alcança flexibilidade e escalabilidade superiores com duas ideias surpreendentemente simples: 1) Uma "arquitetura livre de poses", onde a auto-atenção padrão entre características latentes 2D aprende a consistência 3D através de um número arbitrário de visões condicionais e de geração, sem usar explicitamente informações de pose da câmera; e 2) Uma "estratégia de descarte de visões" que descarta um número substancial de visões de saída durante o treinamento, o que reduz a pegada de memória no tempo de treinamento e permite a síntese de visões densas e de alta resolução no tempo de teste. Utilizamos o Objaverse para treinamento e o Google Scanned Objects para avaliação, com métricas padrão de síntese de novas visões e reconstrução 3D, onde o MVDiffusion++ supera significativamente o estado da arte atual. Também demonstramos um exemplo de aplicação de texto para 3D ao combinar o MVDiffusion++ com um modelo generativo de texto para imagem.
English
This paper presents a neural architecture MVDiffusion++ for 3D object reconstruction that synthesizes dense and high-resolution views of an object given one or a few images without camera poses. MVDiffusion++ achieves superior flexibility and scalability with two surprisingly simple ideas: 1) A ``pose-free architecture'' where standard self-attention among 2D latent features learns 3D consistency across an arbitrary number of conditional and generation views without explicitly using camera pose information; and 2) A ``view dropout strategy'' that discards a substantial number of output views during training, which reduces the training-time memory footprint and enables dense and high-resolution view synthesis at test time. We use the Objaverse for training and the Google Scanned Objects for evaluation with standard novel view synthesis and 3D reconstruction metrics, where MVDiffusion++ significantly outperforms the current state of the arts. We also demonstrate a text-to-3D application example by combining MVDiffusion++ with a text-to-image generative model.
PDF184February 8, 2026