ChatPaper.aiChatPaper

MVDiffusion++: Ein dichtes hochauflösendes Multi-View-Diffusionsmodell für die 3D-Objektrekonstruktion aus einzelnen oder spärlichen Ansichten

MVDiffusion++: A Dense High-resolution Multi-view Diffusion Model for Single or Sparse-view 3D Object Reconstruction

February 20, 2024
Autoren: Shitao Tang, Jiacheng Chen, Dilin Wang, Chengzhou Tang, Fuyang Zhang, Yuchen Fan, Vikas Chandra, Yasutaka Furukawa, Rakesh Ranjan
cs.AI

Zusammenfassung

Dieses Papier stellt eine neuronale Architektur namens MVDiffusion++ für die 3D-Objektrekonstruktion vor, die dichte und hochauflösende Ansichten eines Objekts aus ein oder wenigen Bildern ohne Kameraposen synthetisiert. MVDiffusion++ erreicht überlegene Flexibilität und Skalierbarkeit durch zwei überraschend einfache Ideen: 1) Eine „posenfreie Architektur“, bei der standardmäßige Selbstaufmerksamkeit zwischen 2D-latenten Merkmalen die 3D-Konsistenz über eine beliebige Anzahl von konditionierten und generierten Ansichten lernt, ohne explizit Kameraposeninformationen zu verwenden; und 2) Eine „Ansichts-Dropout-Strategie“, die während des Trainings eine beträchtliche Anzahl von Ausgabeansichten verwirft, was den Speicherbedarf während des Trainings reduziert und die Synthese dichter und hochauflösender Ansichten zur Testzeit ermöglicht. Wir verwenden den Objaverse für das Training und die Google Scanned Objects für die Bewertung mit Standardmetriken für die Synthese neuer Ansichten und die 3D-Rekonstruktion, wobei MVDiffusion++ den aktuellen Stand der Technik deutlich übertrifft. Wir demonstrieren auch ein Beispiel für eine Text-zu-3D-Anwendung, indem wir MVDiffusion++ mit einem Text-zu-Bild-Generierungsmodell kombinieren.
English
This paper presents a neural architecture MVDiffusion++ for 3D object reconstruction that synthesizes dense and high-resolution views of an object given one or a few images without camera poses. MVDiffusion++ achieves superior flexibility and scalability with two surprisingly simple ideas: 1) A ``pose-free architecture'' where standard self-attention among 2D latent features learns 3D consistency across an arbitrary number of conditional and generation views without explicitly using camera pose information; and 2) A ``view dropout strategy'' that discards a substantial number of output views during training, which reduces the training-time memory footprint and enables dense and high-resolution view synthesis at test time. We use the Objaverse for training and the Google Scanned Objects for evaluation with standard novel view synthesis and 3D reconstruction metrics, where MVDiffusion++ significantly outperforms the current state of the arts. We also demonstrate a text-to-3D application example by combining MVDiffusion++ with a text-to-image generative model.

Summary

AI-Generated Summary

PDF184December 15, 2024