Magic123: Hochwertige 3D-Objekterzeugung aus einem Bild unter Verwendung von 2D- und 3D-Diffusionspriors
Magic123: One Image to High-Quality 3D Object Generation Using Both 2D and 3D Diffusion Priors
June 30, 2023
Autoren: Guocheng Qian, Jinjie Mai, Abdullah Hamdi, Jian Ren, Aliaksandr Siarohin, Bing Li, Hsin-Ying Lee, Ivan Skorokhodov, Peter Wonka, Sergey Tulyakov, Bernard Ghanem
cs.AI
Zusammenfassung
Wir präsentieren Magic123, einen zweistufigen Ansatz von grob zu fein für die Erzeugung hochwertiger, texturierter 3D-Meshes aus einem einzelnen unposierten Bild in freier Wildbahn unter Verwendung von sowohl 2D- als auch 3D-Priors. In der ersten Stufe optimieren wir ein neurales Strahlungsfeld, um eine grobe Geometrie zu erzeugen. In der zweiten Stufe verwenden wir eine speichereffiziente, differenzierbare Mesh-Darstellung, um ein hochauflösendes Mesh mit einer visuell ansprechenden Textur zu erzeugen. In beiden Stufen wird der 3D-Inhalt durch Referenzansichtsüberwachung und neuartige Ansichten gelernt, die durch eine Kombination von 2D- und 3D-Diffusionspriors geleitet werden. Wir führen einen einzelnen Kompromissparameter zwischen den 2D- und 3D-Priors ein, um die Exploration (imaginativer) und die Exploitation (präziser) der erzeugten Geometrie zu steuern. Zusätzlich setzen wir Textual Inversion und monokulare Tiefenregularisierung ein, um konsistente Erscheinungen über verschiedene Ansichten hinweg zu fördern und degenerierte Lösungen zu verhindern. Magic123 zeigt eine signifikante Verbesserung gegenüber früheren Bild-zu-3D-Techniken, wie durch umfangreiche Experimente auf synthetischen Benchmarks und diversen realen Bildern validiert wird. Unser Code, Modelle und erzeugte 3D-Assets sind unter https://github.com/guochengqian/Magic123 verfügbar.
English
We present Magic123, a two-stage coarse-to-fine approach for high-quality,
textured 3D meshes generation from a single unposed image in the wild using
both2D and 3D priors. In the first stage, we optimize a neural radiance field
to produce a coarse geometry. In the second stage, we adopt a memory-efficient
differentiable mesh representation to yield a high-resolution mesh with a
visually appealing texture. In both stages, the 3D content is learned through
reference view supervision and novel views guided by a combination of 2D and 3D
diffusion priors. We introduce a single trade-off parameter between the 2D and
3D priors to control exploration (more imaginative) and exploitation (more
precise) of the generated geometry. Additionally, we employ textual inversion
and monocular depth regularization to encourage consistent appearances across
views and to prevent degenerate solutions, respectively. Magic123 demonstrates
a significant improvement over previous image-to-3D techniques, as validated
through extensive experiments on synthetic benchmarks and diverse real-world
images. Our code, models, and generated 3D assets are available at
https://github.com/guochengqian/Magic123.