ChatPaper.aiChatPaper

MVDiffusion++: Een dicht hoogresolutie multi-view diffusiemodel voor enkelvoudige of schaarse-view 3D-objectreconstructie

MVDiffusion++: A Dense High-resolution Multi-view Diffusion Model for Single or Sparse-view 3D Object Reconstruction

February 20, 2024
Auteurs: Shitao Tang, Jiacheng Chen, Dilin Wang, Chengzhou Tang, Fuyang Zhang, Yuchen Fan, Vikas Chandra, Yasutaka Furukawa, Rakesh Ranjan
cs.AI

Samenvatting

Dit artikel presenteert een neurale architectuur genaamd MVDiffusion++ voor 3D-objectreconstructie, die dichte en hoogresolutiebeelden van een object synthetiseert op basis van één of enkele afbeeldingen zonder cameraposities. MVDiffusion++ bereikt superieure flexibiliteit en schaalbaarheid met twee verrassend eenvoudige ideeën: 1) Een "pose-vrije architectuur" waarbij standaard zelf-attentie tussen 2D latente kenmerken 3D-consistentie leert over een willekeurig aantal conditionele en generatiebeelden zonder expliciet gebruik te maken van camerapositie-informatie; en 2) Een "view dropout-strategie" die een aanzienlijk aantal uitvoerbeelden tijdens de training weglaat, wat het geheugengebruik tijdens de training vermindert en dichte en hoogresolutiebeeldsynthese mogelijk maakt tijdens de testfase. We gebruiken de Objaverse voor training en de Google Scanned Objects voor evaluatie met standaard metrieken voor nieuwe beeldsynthese en 3D-reconstructie, waarbij MVDiffusion++ de huidige state-of-the-art aanzienlijk overtreft. We demonstreren ook een tekst-naar-3D-toepassingsvoorbeeld door MVDiffusion++ te combineren met een tekst-naar-beeld generatief model.
English
This paper presents a neural architecture MVDiffusion++ for 3D object reconstruction that synthesizes dense and high-resolution views of an object given one or a few images without camera poses. MVDiffusion++ achieves superior flexibility and scalability with two surprisingly simple ideas: 1) A ``pose-free architecture'' where standard self-attention among 2D latent features learns 3D consistency across an arbitrary number of conditional and generation views without explicitly using camera pose information; and 2) A ``view dropout strategy'' that discards a substantial number of output views during training, which reduces the training-time memory footprint and enables dense and high-resolution view synthesis at test time. We use the Objaverse for training and the Google Scanned Objects for evaluation with standard novel view synthesis and 3D reconstruction metrics, where MVDiffusion++ significantly outperforms the current state of the arts. We also demonstrate a text-to-3D application example by combining MVDiffusion++ with a text-to-image generative model.
PDF184February 8, 2026