ChatPaper.aiChatPaper

Magic123: Generación de objetos 3D de alta calidad a partir de una imagen utilizando prioridades de difusión tanto 2D como 3D

Magic123: One Image to High-Quality 3D Object Generation Using Both 2D and 3D Diffusion Priors

June 30, 2023
Autores: Guocheng Qian, Jinjie Mai, Abdullah Hamdi, Jian Ren, Aliaksandr Siarohin, Bing Li, Hsin-Ying Lee, Ivan Skorokhodov, Peter Wonka, Sergey Tulyakov, Bernard Ghanem
cs.AI

Resumen

Presentamos Magic123, un enfoque de dos etapas de lo general a lo detallado para la generación de mallas 3D de alta calidad con textura a partir de una única imagen sin posar en entornos naturales, utilizando tanto priores 2D como 3D. En la primera etapa, optimizamos un campo de radiancia neuronal para producir una geometría aproximada. En la segunda etapa, adoptamos una representación de malla diferenciable eficiente en memoria para obtener una malla de alta resolución con una textura visualmente atractiva. En ambas etapas, el contenido 3D se aprende mediante la supervisión de la vista de referencia y vistas novedosas guiadas por una combinación de priores de difusión 2D y 3D. Introducimos un único parámetro de equilibrio entre los priores 2D y 3D para controlar la exploración (más imaginativa) y la explotación (más precisa) de la geometría generada. Además, empleamos inversión textual y regularización de profundidad monocular para fomentar apariencias consistentes entre vistas y prevenir soluciones degeneradas, respectivamente. Magic123 demuestra una mejora significativa sobre las técnicas anteriores de imagen a 3D, como se valida a través de extensos experimentos en benchmarks sintéticos y diversas imágenes del mundo real. Nuestro código, modelos y activos 3D generados están disponibles en https://github.com/guochengqian/Magic123.
English
We present Magic123, a two-stage coarse-to-fine approach for high-quality, textured 3D meshes generation from a single unposed image in the wild using both2D and 3D priors. In the first stage, we optimize a neural radiance field to produce a coarse geometry. In the second stage, we adopt a memory-efficient differentiable mesh representation to yield a high-resolution mesh with a visually appealing texture. In both stages, the 3D content is learned through reference view supervision and novel views guided by a combination of 2D and 3D diffusion priors. We introduce a single trade-off parameter between the 2D and 3D priors to control exploration (more imaginative) and exploitation (more precise) of the generated geometry. Additionally, we employ textual inversion and monocular depth regularization to encourage consistent appearances across views and to prevent degenerate solutions, respectively. Magic123 demonstrates a significant improvement over previous image-to-3D techniques, as validated through extensive experiments on synthetic benchmarks and diverse real-world images. Our code, models, and generated 3D assets are available at https://github.com/guochengqian/Magic123.
PDF434December 15, 2024