Magic123: Eén Afbeelding naar Hoogwaardige 3D-objectgeneratie met Gebruik van zowel 2D- als 3D-diffusiepriors
Magic123: One Image to High-Quality 3D Object Generation Using Both 2D and 3D Diffusion Priors
June 30, 2023
Auteurs: Guocheng Qian, Jinjie Mai, Abdullah Hamdi, Jian Ren, Aliaksandr Siarohin, Bing Li, Hsin-Ying Lee, Ivan Skorokhodov, Peter Wonka, Sergey Tulyakov, Bernard Ghanem
cs.AI
Samenvatting
We presenteren Magic123, een tweestapsbenadering van grof naar fijn voor de generatie van hoogwaardige, getextureerde 3D-meshes vanuit een enkele ongeposeerde afbeelding in de wild, waarbij zowel 2D- als 3D-priors worden gebruikt. In de eerste fase optimaliseren we een neurale radiance field om een grove geometrie te produceren. In de tweede fase gebruiken we een geheugenefficiënte differentieerbare mesh-representatie om een hoogresolutie mesh met een visueel aantrekkelijke textuur te genereren. In beide fasen wordt de 3D-inhoud geleerd door referentieweergave-supervisie en nieuwe weergaven die worden geleid door een combinatie van 2D- en 3D-diffusiepriors. We introduceren een enkele afwegingparameter tussen de 2D- en 3D-priors om de exploratie (meer fantasierijk) en exploitatie (nauwkeuriger) van de gegenereerde geometrie te controleren. Daarnaast passen we tekstuele inversie en monoculaire diepteregularisatie toe om consistente verschijningen tussen weergaven te bevorderen en om degeneratieve oplossingen te voorkomen, respectievelijk. Magic123 toont een significante verbetering ten opzichte van eerdere beeld-naar-3D-technieken, zoals gevalideerd door uitgebreide experimenten op synthetische benchmarks en diverse real-world afbeeldingen. Onze code, modellen en gegenereerde 3D-assets zijn beschikbaar op https://github.com/guochengqian/Magic123.
English
We present Magic123, a two-stage coarse-to-fine approach for high-quality,
textured 3D meshes generation from a single unposed image in the wild using
both2D and 3D priors. In the first stage, we optimize a neural radiance field
to produce a coarse geometry. In the second stage, we adopt a memory-efficient
differentiable mesh representation to yield a high-resolution mesh with a
visually appealing texture. In both stages, the 3D content is learned through
reference view supervision and novel views guided by a combination of 2D and 3D
diffusion priors. We introduce a single trade-off parameter between the 2D and
3D priors to control exploration (more imaginative) and exploitation (more
precise) of the generated geometry. Additionally, we employ textual inversion
and monocular depth regularization to encourage consistent appearances across
views and to prevent degenerate solutions, respectively. Magic123 demonstrates
a significant improvement over previous image-to-3D techniques, as validated
through extensive experiments on synthetic benchmarks and diverse real-world
images. Our code, models, and generated 3D assets are available at
https://github.com/guochengqian/Magic123.