MVDiffusion++: Ein dichtes hochauflösendes Multi-View-Diffusionsmodell für die 3D-Objektrekonstruktion aus einzelnen oder spärlichen Ansichten
MVDiffusion++: A Dense High-resolution Multi-view Diffusion Model for Single or Sparse-view 3D Object Reconstruction
February 20, 2024
Autoren: Shitao Tang, Jiacheng Chen, Dilin Wang, Chengzhou Tang, Fuyang Zhang, Yuchen Fan, Vikas Chandra, Yasutaka Furukawa, Rakesh Ranjan
cs.AI
Zusammenfassung
Dieses Papier stellt eine neuronale Architektur namens MVDiffusion++ für die 3D-Objektrekonstruktion vor, die dichte und hochauflösende Ansichten eines Objekts aus ein oder wenigen Bildern ohne Kameraposen synthetisiert. MVDiffusion++ erreicht überlegene Flexibilität und Skalierbarkeit durch zwei überraschend einfache Ideen: 1) Eine „posenfreie Architektur“, bei der standardmäßige Selbstaufmerksamkeit zwischen 2D-latenten Merkmalen die 3D-Konsistenz über eine beliebige Anzahl von konditionierten und generierten Ansichten lernt, ohne explizit Kameraposeninformationen zu verwenden; und 2) Eine „Ansichts-Dropout-Strategie“, die während des Trainings eine beträchtliche Anzahl von Ausgabeansichten verwirft, was den Speicherbedarf während des Trainings reduziert und die Synthese dichter und hochauflösender Ansichten zur Testzeit ermöglicht. Wir verwenden den Objaverse für das Training und die Google Scanned Objects für die Bewertung mit Standardmetriken für die Synthese neuer Ansichten und die 3D-Rekonstruktion, wobei MVDiffusion++ den aktuellen Stand der Technik deutlich übertrifft. Wir demonstrieren auch ein Beispiel für eine Text-zu-3D-Anwendung, indem wir MVDiffusion++ mit einem Text-zu-Bild-Generierungsmodell kombinieren.
English
This paper presents a neural architecture MVDiffusion++ for 3D object
reconstruction that synthesizes dense and high-resolution views of an object
given one or a few images without camera poses. MVDiffusion++ achieves superior
flexibility and scalability with two surprisingly simple ideas: 1) A
``pose-free architecture'' where standard self-attention among 2D latent
features learns 3D consistency across an arbitrary number of conditional and
generation views without explicitly using camera pose information; and 2) A
``view dropout strategy'' that discards a substantial number of output views
during training, which reduces the training-time memory footprint and enables
dense and high-resolution view synthesis at test time. We use the Objaverse for
training and the Google Scanned Objects for evaluation with standard novel view
synthesis and 3D reconstruction metrics, where MVDiffusion++ significantly
outperforms the current state of the arts. We also demonstrate a text-to-3D
application example by combining MVDiffusion++ with a text-to-image generative
model.Summary
AI-Generated Summary