Magic123: Generazione di oggetti 3D di alta qualità da una singola immagine utilizzando prior di diffusione sia 2D che 3D

Abstract

Presentiamo Magic123, un approccio a due stadi da grossolano a fine per la generazione di mesh 3D di alta qualità e con texture a partire da una singola immagine non posata in contesti reali, utilizzando sia prior 2D che 3D. Nella prima fase, ottimizziamo un campo di radianza neurale per produrre una geometria grossolana. Nella seconda fase, adottiamo una rappresentazione differenziabile di mesh efficiente in termini di memoria per ottenere una mesh ad alta risoluzione con una texture visivamente accattivante. In entrambe le fasi, il contenuto 3D viene appreso attraverso la supervisione della vista di riferimento e viste nuove guidate da una combinazione di prior di diffusione 2D e 3D. Introduciamo un singolo parametro di compromesso tra i prior 2D e 3D per controllare l'esplorazione (più immaginativa) e lo sfruttamento (più preciso) della geometria generata. Inoltre, utilizziamo l'inversione testuale e la regolarizzazione della profondità monoculare per favorire una consistenza dell'aspetto tra le diverse viste e per prevenire soluzioni degenerate, rispettivamente. Magic123 dimostra un miglioramento significativo rispetto alle precedenti tecniche di conversione da immagine a 3D, come validato attraverso esperimenti estesi su benchmark sintetici e su una varietà di immagini del mondo reale. Il nostro codice, modelli e asset 3D generati sono disponibili all'indirizzo https://github.com/guochengqian/Magic123.

English

We present Magic123, a two-stage coarse-to-fine approach for high-quality, textured 3D meshes generation from a single unposed image in the wild using both2D and 3D priors. In the first stage, we optimize a neural radiance field to produce a coarse geometry. In the second stage, we adopt a memory-efficient differentiable mesh representation to yield a high-resolution mesh with a visually appealing texture. In both stages, the 3D content is learned through reference view supervision and novel views guided by a combination of 2D and 3D diffusion priors. We introduce a single trade-off parameter between the 2D and 3D priors to control exploration (more imaginative) and exploitation (more precise) of the generated geometry. Additionally, we employ textual inversion and monocular depth regularization to encourage consistent appearances across views and to prevent degenerate solutions, respectively. Magic123 demonstrates a significant improvement over previous image-to-3D techniques, as validated through extensive experiments on synthetic benchmarks and diverse real-world images. Our code, models, and generated 3D assets are available at https://github.com/guochengqian/Magic123.

Magic123: Generazione di oggetti 3D di alta qualità da una singola immagine utilizzando prior di diffusione sia 2D che 3D

Magic123: One Image to High-Quality 3D Object Generation Using Both 2D and 3D Diffusion Priors

Abstract

Support