ChatPaper.aiChatPaper

One-2-3-45++ : Génération rapide d'objets 3D à partir d'une seule image avec une génération multi-vue cohérente et une diffusion 3D

One-2-3-45++: Fast Single Image to 3D Objects with Consistent Multi-View Generation and 3D Diffusion

November 14, 2023
Auteurs: Minghua Liu, Ruoxi Shi, Linghao Chen, Zhuoyang Zhang, Chao Xu, Xinyue Wei, Hansheng Chen, Chong Zeng, Jiayuan Gu, Hao Su
cs.AI

Résumé

Les récents progrès dans la génération d'objets 3D en monde ouvert sont remarquables, avec les méthodes image-à-3D offrant un contrôle plus fin que leurs homologues texte-à-3D. Cependant, la plupart des modèles existants peinent à fournir simultanément des vitesses de génération rapides et une fidélité élevée aux images d'entrée - deux caractéristiques essentielles pour les applications pratiques. Dans cet article, nous présentons One-2-3-45++, une méthode innovante qui transforme une seule image en un maillage 3D texturé détaillé en environ une minute. Notre approche vise à exploiter pleinement les connaissances approfondies intégrées dans les modèles de diffusion 2D et les a priori issus de données 3D précieuses mais limitées. Cela est réalisé en affinant d'abord un modèle de diffusion 2D pour une génération cohérente d'images multi-vues, puis en élevant ces images à la 3D à l'aide de modèles de diffusion natifs 3D conditionnés par plusieurs vues. Des évaluations expérimentales approfondies démontrent que notre méthode peut produire des actifs 3D de haute qualité et diversifiés qui reflètent étroitement l'image d'entrée originale. Notre page web de projet : https://sudo-ai-3d.github.io/One2345plus_page.
English
Recent advancements in open-world 3D object generation have been remarkable, with image-to-3D methods offering superior fine-grained control over their text-to-3D counterparts. However, most existing models fall short in simultaneously providing rapid generation speeds and high fidelity to input images - two features essential for practical applications. In this paper, we present One-2-3-45++, an innovative method that transforms a single image into a detailed 3D textured mesh in approximately one minute. Our approach aims to fully harness the extensive knowledge embedded in 2D diffusion models and priors from valuable yet limited 3D data. This is achieved by initially finetuning a 2D diffusion model for consistent multi-view image generation, followed by elevating these images to 3D with the aid of multi-view conditioned 3D native diffusion models. Extensive experimental evaluations demonstrate that our method can produce high-quality, diverse 3D assets that closely mirror the original input image. Our project webpage: https://sudo-ai-3d.github.io/One2345plus_page.
PDF404December 15, 2024