ComboVerse: Kompositionelle 3D-Asset-Erstellung unter Verwendung von räumlich bewusster Diffusionsführung
ComboVerse: Compositional 3D Assets Creation Using Spatially-Aware Diffusion Guidance
March 19, 2024
Autoren: Yongwei Chen, Tengfei Wang, Tong Wu, Xingang Pan, Kui Jia, Ziwei Liu
cs.AI
Zusammenfassung
Die Generierung hochwertiger 3D-Assets aus einem gegebenen Bild ist in verschiedenen Anwendungen wie AR/VR äußerst wünschenswert. Neueste Fortschritte in der 3D-Generierung aus Einzelbildern erforschen Feed-Forward-Modelle, die lernen, das 3D-Modell eines Objekts ohne Optimierung zu erschließen. Obwohl vielversprechende Ergebnisse bei der Generierung einzelner Objekte erzielt wurden, haben diese Methoden oft Schwierigkeiten, komplexe 3D-Assets zu modellieren, die inhärent mehrere Objekte enthalten. In dieser Arbeit präsentieren wir ComboVerse, ein 3D-Generierungsframework, das hochwertige 3D-Assets mit komplexen Kompositionen produziert, indem es lernt, mehrere Modelle zu kombinieren. 1) Zunächst führen wir eine eingehende Analyse dieser "Multi-Objekt-Lücke" aus sowohl Modell- als auch Datensicht durch. 2) Als Nächstes versuchen wir, mit rekonstruierten 3D-Modellen verschiedener Objekte deren Größen, Rotationswinkel und Positionen anzupassen, um ein 3D-Asset zu erstellen, das dem gegebenen Bild entspricht. 3) Um diesen Prozess zu automatisieren, wenden wir räumlich bewusstes Score-Distillation-Sampling (SSDS) aus vorab trainierten Diffusionsmodellen an, um die Positionierung der Objekte zu steuern. Unser vorgeschlagenes Framework betont die räumliche Ausrichtung von Objekten im Vergleich zum Standard-Score-Distillation-Sampling und erzielt so genauere Ergebnisse. Umfangreiche Experimente bestätigen, dass ComboVerse klare Verbesserungen gegenüber bestehenden Methoden bei der Generierung kompositorischer 3D-Assets erzielt.
English
Generating high-quality 3D assets from a given image is highly desirable in
various applications such as AR/VR. Recent advances in single-image 3D
generation explore feed-forward models that learn to infer the 3D model of an
object without optimization. Though promising results have been achieved in
single object generation, these methods often struggle to model complex 3D
assets that inherently contain multiple objects. In this work, we present
ComboVerse, a 3D generation framework that produces high-quality 3D assets with
complex compositions by learning to combine multiple models. 1) We first
perform an in-depth analysis of this ``multi-object gap'' from both model and
data perspectives. 2) Next, with reconstructed 3D models of different objects,
we seek to adjust their sizes, rotation angles, and locations to create a 3D
asset that matches the given image. 3) To automate this process, we apply
spatially-aware score distillation sampling (SSDS) from pretrained diffusion
models to guide the positioning of objects. Our proposed framework emphasizes
spatial alignment of objects, compared with standard score distillation
sampling, and thus achieves more accurate results. Extensive experiments
validate ComboVerse achieves clear improvements over existing methods in
generating compositional 3D assets.Summary
AI-Generated Summary