MVDiffusion++: Een dicht hoogresolutie multi-view diffusiemodel voor enkelvoudige of schaarse-view 3D-objectreconstructie
MVDiffusion++: A Dense High-resolution Multi-view Diffusion Model for Single or Sparse-view 3D Object Reconstruction
February 20, 2024
Auteurs: Shitao Tang, Jiacheng Chen, Dilin Wang, Chengzhou Tang, Fuyang Zhang, Yuchen Fan, Vikas Chandra, Yasutaka Furukawa, Rakesh Ranjan
cs.AI
Samenvatting
Dit artikel presenteert een neurale architectuur genaamd MVDiffusion++ voor 3D-objectreconstructie, die dichte en hoogresolutiebeelden van een object synthetiseert op basis van één of enkele afbeeldingen zonder cameraposities. MVDiffusion++ bereikt superieure flexibiliteit en schaalbaarheid met twee verrassend eenvoudige ideeën: 1) Een "pose-vrije architectuur" waarbij standaard zelf-attentie tussen 2D latente kenmerken 3D-consistentie leert over een willekeurig aantal conditionele en generatiebeelden zonder expliciet gebruik te maken van camerapositie-informatie; en 2) Een "view dropout-strategie" die een aanzienlijk aantal uitvoerbeelden tijdens de training weglaat, wat het geheugengebruik tijdens de training vermindert en dichte en hoogresolutiebeeldsynthese mogelijk maakt tijdens de testfase. We gebruiken de Objaverse voor training en de Google Scanned Objects voor evaluatie met standaard metrieken voor nieuwe beeldsynthese en 3D-reconstructie, waarbij MVDiffusion++ de huidige state-of-the-art aanzienlijk overtreft. We demonstreren ook een tekst-naar-3D-toepassingsvoorbeeld door MVDiffusion++ te combineren met een tekst-naar-beeld generatief model.
English
This paper presents a neural architecture MVDiffusion++ for 3D object
reconstruction that synthesizes dense and high-resolution views of an object
given one or a few images without camera poses. MVDiffusion++ achieves superior
flexibility and scalability with two surprisingly simple ideas: 1) A
``pose-free architecture'' where standard self-attention among 2D latent
features learns 3D consistency across an arbitrary number of conditional and
generation views without explicitly using camera pose information; and 2) A
``view dropout strategy'' that discards a substantial number of output views
during training, which reduces the training-time memory footprint and enables
dense and high-resolution view synthesis at test time. We use the Objaverse for
training and the Google Scanned Objects for evaluation with standard novel view
synthesis and 3D reconstruction metrics, where MVDiffusion++ significantly
outperforms the current state of the arts. We also demonstrate a text-to-3D
application example by combining MVDiffusion++ with a text-to-image generative
model.