Magic123: Generazione di oggetti 3D di alta qualità da una singola immagine utilizzando prior di diffusione sia 2D che 3D
Magic123: One Image to High-Quality 3D Object Generation Using Both 2D and 3D Diffusion Priors
June 30, 2023
Autori: Guocheng Qian, Jinjie Mai, Abdullah Hamdi, Jian Ren, Aliaksandr Siarohin, Bing Li, Hsin-Ying Lee, Ivan Skorokhodov, Peter Wonka, Sergey Tulyakov, Bernard Ghanem
cs.AI
Abstract
Presentiamo Magic123, un approccio a due stadi da grossolano a fine per la generazione di mesh 3D di alta qualità e con texture a partire da una singola immagine non posata in contesti reali, utilizzando sia prior 2D che 3D. Nella prima fase, ottimizziamo un campo di radianza neurale per produrre una geometria grossolana. Nella seconda fase, adottiamo una rappresentazione differenziabile di mesh efficiente in termini di memoria per ottenere una mesh ad alta risoluzione con una texture visivamente accattivante. In entrambe le fasi, il contenuto 3D viene appreso attraverso la supervisione della vista di riferimento e viste nuove guidate da una combinazione di prior di diffusione 2D e 3D. Introduciamo un singolo parametro di compromesso tra i prior 2D e 3D per controllare l'esplorazione (più immaginativa) e lo sfruttamento (più preciso) della geometria generata. Inoltre, utilizziamo l'inversione testuale e la regolarizzazione della profondità monoculare per favorire una consistenza dell'aspetto tra le diverse viste e per prevenire soluzioni degenerate, rispettivamente. Magic123 dimostra un miglioramento significativo rispetto alle precedenti tecniche di conversione da immagine a 3D, come validato attraverso esperimenti estesi su benchmark sintetici e su una varietà di immagini del mondo reale. Il nostro codice, modelli e asset 3D generati sono disponibili all'indirizzo https://github.com/guochengqian/Magic123.
English
We present Magic123, a two-stage coarse-to-fine approach for high-quality,
textured 3D meshes generation from a single unposed image in the wild using
both2D and 3D priors. In the first stage, we optimize a neural radiance field
to produce a coarse geometry. In the second stage, we adopt a memory-efficient
differentiable mesh representation to yield a high-resolution mesh with a
visually appealing texture. In both stages, the 3D content is learned through
reference view supervision and novel views guided by a combination of 2D and 3D
diffusion priors. We introduce a single trade-off parameter between the 2D and
3D priors to control exploration (more imaginative) and exploitation (more
precise) of the generated geometry. Additionally, we employ textual inversion
and monocular depth regularization to encourage consistent appearances across
views and to prevent degenerate solutions, respectively. Magic123 demonstrates
a significant improvement over previous image-to-3D techniques, as validated
through extensive experiments on synthetic benchmarks and diverse real-world
images. Our code, models, and generated 3D assets are available at
https://github.com/guochengqian/Magic123.