ChatPaper.aiChatPaper

Magic123: Eén Afbeelding naar Hoogwaardige 3D-objectgeneratie met Gebruik van zowel 2D- als 3D-diffusiepriors

Magic123: One Image to High-Quality 3D Object Generation Using Both 2D and 3D Diffusion Priors

June 30, 2023
Auteurs: Guocheng Qian, Jinjie Mai, Abdullah Hamdi, Jian Ren, Aliaksandr Siarohin, Bing Li, Hsin-Ying Lee, Ivan Skorokhodov, Peter Wonka, Sergey Tulyakov, Bernard Ghanem
cs.AI

Samenvatting

We presenteren Magic123, een tweestapsbenadering van grof naar fijn voor de generatie van hoogwaardige, getextureerde 3D-meshes vanuit een enkele ongeposeerde afbeelding in de wild, waarbij zowel 2D- als 3D-priors worden gebruikt. In de eerste fase optimaliseren we een neurale radiance field om een grove geometrie te produceren. In de tweede fase gebruiken we een geheugenefficiënte differentieerbare mesh-representatie om een hoogresolutie mesh met een visueel aantrekkelijke textuur te genereren. In beide fasen wordt de 3D-inhoud geleerd door referentieweergave-supervisie en nieuwe weergaven die worden geleid door een combinatie van 2D- en 3D-diffusiepriors. We introduceren een enkele afwegingparameter tussen de 2D- en 3D-priors om de exploratie (meer fantasierijk) en exploitatie (nauwkeuriger) van de gegenereerde geometrie te controleren. Daarnaast passen we tekstuele inversie en monoculaire diepteregularisatie toe om consistente verschijningen tussen weergaven te bevorderen en om degeneratieve oplossingen te voorkomen, respectievelijk. Magic123 toont een significante verbetering ten opzichte van eerdere beeld-naar-3D-technieken, zoals gevalideerd door uitgebreide experimenten op synthetische benchmarks en diverse real-world afbeeldingen. Onze code, modellen en gegenereerde 3D-assets zijn beschikbaar op https://github.com/guochengqian/Magic123.
English
We present Magic123, a two-stage coarse-to-fine approach for high-quality, textured 3D meshes generation from a single unposed image in the wild using both2D and 3D priors. In the first stage, we optimize a neural radiance field to produce a coarse geometry. In the second stage, we adopt a memory-efficient differentiable mesh representation to yield a high-resolution mesh with a visually appealing texture. In both stages, the 3D content is learned through reference view supervision and novel views guided by a combination of 2D and 3D diffusion priors. We introduce a single trade-off parameter between the 2D and 3D priors to control exploration (more imaginative) and exploitation (more precise) of the generated geometry. Additionally, we employ textual inversion and monocular depth regularization to encourage consistent appearances across views and to prevent degenerate solutions, respectively. Magic123 demonstrates a significant improvement over previous image-to-3D techniques, as validated through extensive experiments on synthetic benchmarks and diverse real-world images. Our code, models, and generated 3D assets are available at https://github.com/guochengqian/Magic123.
PDF434December 15, 2024