One-2-3-45++: Schnelle Erzeugung von 3D-Objekten aus einem einzelnen Bild mit konsistenter Multi-View-Generierung und 3D-Diffusion
One-2-3-45++: Fast Single Image to 3D Objects with Consistent Multi-View Generation and 3D Diffusion
November 14, 2023
Autoren: Minghua Liu, Ruoxi Shi, Linghao Chen, Zhuoyang Zhang, Chao Xu, Xinyue Wei, Hansheng Chen, Chong Zeng, Jiayuan Gu, Hao Su
cs.AI
Zusammenfassung
Jüngste Fortschritte in der offenen 3D-Objekterzeugung sind bemerkenswert, wobei Bild-zu-3D-Methoden eine überlegene feinkörnige Kontrolle gegenüber ihren Text-zu-3D-Pendants bieten. Die meisten bestehenden Modelle erreichen jedoch nicht gleichzeitig schnelle Erzeugungsgeschwindigkeiten und hohe Detailtreue zum Eingabebild – zwei Merkmale, die für praktische Anwendungen unerlässlich sind. In diesem Artikel präsentieren wir One-2-3-45++, eine innovative Methode, die ein einzelnes Bild in etwa einer Minute in ein detailliertes, texturiertes 3D-Mesh umwandelt. Unser Ansatz zielt darauf ab, das umfangreiche Wissen, das in 2D-Diffusionsmodellen und Vorwissen aus wertvollen, aber begrenzten 3D-Daten enthalten ist, vollständig zu nutzen. Dies wird erreicht, indem zunächst ein 2D-Diffusionsmodell für die konsistente Erzeugung von Mehransichtsbildern feinabgestimmt wird, gefolgt von der Erweiterung dieser Bilder in 3D mithilfe von mehransichtsbedingten, nativen 3D-Diffusionsmodellen. Umfangreiche experimentelle Auswertungen zeigen, dass unsere Methode hochwertige, vielfältige 3D-Assets erzeugen kann, die das ursprüngliche Eingabebild eng widerspiegeln. Unsere Projektwebseite: https://sudo-ai-3d.github.io/One2345plus_page.
English
Recent advancements in open-world 3D object generation have been remarkable,
with image-to-3D methods offering superior fine-grained control over their
text-to-3D counterparts. However, most existing models fall short in
simultaneously providing rapid generation speeds and high fidelity to input
images - two features essential for practical applications. In this paper, we
present One-2-3-45++, an innovative method that transforms a single image into
a detailed 3D textured mesh in approximately one minute. Our approach aims to
fully harness the extensive knowledge embedded in 2D diffusion models and
priors from valuable yet limited 3D data. This is achieved by initially
finetuning a 2D diffusion model for consistent multi-view image generation,
followed by elevating these images to 3D with the aid of multi-view conditioned
3D native diffusion models. Extensive experimental evaluations demonstrate that
our method can produce high-quality, diverse 3D assets that closely mirror the
original input image. Our project webpage:
https://sudo-ai-3d.github.io/One2345plus_page.