ChatPaper.aiChatPaper

Magic123 : Génération d'objets 3D de haute qualité à partir d'une seule image en utilisant des a priori de diffusion 2D et 3D

Magic123: One Image to High-Quality 3D Object Generation Using Both 2D and 3D Diffusion Priors

June 30, 2023
Auteurs: Guocheng Qian, Jinjie Mai, Abdullah Hamdi, Jian Ren, Aliaksandr Siarohin, Bing Li, Hsin-Ying Lee, Ivan Skorokhodov, Peter Wonka, Sergey Tulyakov, Bernard Ghanem
cs.AI

Résumé

Nous présentons Magic123, une approche en deux étapes allant du grossier au fin pour la génération de maillages 3D texturés de haute qualité à partir d'une seule image non posée en milieu naturel, en utilisant à la fois des connaissances a priori 2D et 3D. Dans la première étape, nous optimisons un champ de radiance neuronale pour produire une géométrie grossière. Dans la deuxième étape, nous adoptons une représentation de maillage différentiable économe en mémoire pour obtenir un maillage haute résolution avec une texture visuellement attrayante. Dans les deux étapes, le contenu 3D est appris grâce à une supervision par vue de référence et des vues nouvelles guidées par une combinaison de connaissances a priori issues de modèles de diffusion 2D et 3D. Nous introduisons un unique paramètre de compromis entre les connaissances a priori 2D et 3D pour contrôler l'exploration (plus imaginative) et l'exploitation (plus précise) de la géométrie générée. De plus, nous utilisons l'inversion textuelle et une régularisation de la profondeur monoculaire pour encourager une apparence cohérente entre les vues et pour prévenir les solutions dégénérées, respectivement. Magic123 démontre une amélioration significative par rapport aux techniques précédentes de conversion d'image en 3D, comme en témoignent des expériences approfondies sur des benchmarks synthétiques et des images réelles variées. Notre code, modèles et actifs 3D générés sont disponibles à l'adresse https://github.com/guochengqian/Magic123.
English
We present Magic123, a two-stage coarse-to-fine approach for high-quality, textured 3D meshes generation from a single unposed image in the wild using both2D and 3D priors. In the first stage, we optimize a neural radiance field to produce a coarse geometry. In the second stage, we adopt a memory-efficient differentiable mesh representation to yield a high-resolution mesh with a visually appealing texture. In both stages, the 3D content is learned through reference view supervision and novel views guided by a combination of 2D and 3D diffusion priors. We introduce a single trade-off parameter between the 2D and 3D priors to control exploration (more imaginative) and exploitation (more precise) of the generated geometry. Additionally, we employ textual inversion and monocular depth regularization to encourage consistent appearances across views and to prevent degenerate solutions, respectively. Magic123 demonstrates a significant improvement over previous image-to-3D techniques, as validated through extensive experiments on synthetic benchmarks and diverse real-world images. Our code, models, and generated 3D assets are available at https://github.com/guochengqian/Magic123.
PDF434December 15, 2024