MVDiffusion++: Un Modello di Diffusione Multi-vista ad Alta Risoluzione e Denso per la Ricostruzione 3D di Oggetti da Vista Singola o Sparsa
MVDiffusion++: A Dense High-resolution Multi-view Diffusion Model for Single or Sparse-view 3D Object Reconstruction
February 20, 2024
Autori: Shitao Tang, Jiacheng Chen, Dilin Wang, Chengzhou Tang, Fuyang Zhang, Yuchen Fan, Vikas Chandra, Yasutaka Furukawa, Rakesh Ranjan
cs.AI
Abstract
Questo articolo presenta l'architettura neurale MVDiffusion++ per la ricostruzione di oggetti 3D, che sintetizza viste dense e ad alta risoluzione di un oggetto partendo da una o poche immagini senza informazioni sulla posizione della camera. MVDiffusion++ raggiunge una flessibilità e scalabilità superiori grazie a due idee sorprendentemente semplici: 1) Un'``architettura senza pose'' in cui l'auto-attenzione standard tra feature latenti 2D apprende la coerenza 3D attraverso un numero arbitrario di viste condizionali e di generazione senza utilizzare esplicitamente informazioni sulla posizione della camera; e 2) Una ``strategia di dropout delle viste'' che scarta un numero significativo di viste di output durante l'addestramento, riducendo l'impronta di memoria in fase di training e abilitando la sintesi di viste dense e ad alta risoluzione in fase di test. Utilizziamo Objaverse per l'addestramento e Google Scanned Objects per la valutazione con metriche standard di sintesi di nuove viste e ricostruzione 3D, dove MVDiffusion++ supera significativamente lo stato dell'arte attuale. Dimostriamo anche un esempio di applicazione text-to-3D combinando MVDiffusion++ con un modello generativo text-to-image.
English
This paper presents a neural architecture MVDiffusion++ for 3D object
reconstruction that synthesizes dense and high-resolution views of an object
given one or a few images without camera poses. MVDiffusion++ achieves superior
flexibility and scalability with two surprisingly simple ideas: 1) A
``pose-free architecture'' where standard self-attention among 2D latent
features learns 3D consistency across an arbitrary number of conditional and
generation views without explicitly using camera pose information; and 2) A
``view dropout strategy'' that discards a substantial number of output views
during training, which reduces the training-time memory footprint and enables
dense and high-resolution view synthesis at test time. We use the Objaverse for
training and the Google Scanned Objects for evaluation with standard novel view
synthesis and 3D reconstruction metrics, where MVDiffusion++ significantly
outperforms the current state of the arts. We also demonstrate a text-to-3D
application example by combining MVDiffusion++ with a text-to-image generative
model.