Hi3DGen: Hochauflösende 3D-Geometrieerzeugung aus Bildern durch Normalenbrückenschaltung

papers.abstract

Mit der zunehmenden Nachfrage nach hochauflösenden 3D-Modellen aus 2D-Bildern stehen bestehende Methoden weiterhin vor erheblichen Herausforderungen bei der präzisen Reproduktion feingliedriger geometrischer Details, bedingt durch Domänenlücken und inhärente Mehrdeutigkeiten in RGB-Bildern. Um diese Probleme zu lösen, schlagen wir Hi3DGen vor, ein neuartiges Framework zur Erzeugung hochauflösender 3D-Geometrie aus Bildern über Normalenbrücken. Hi3DGen besteht aus drei Schlüsselkomponenten: (1) einem Bild-zu-Normalen-Schätzer, der nieder- und hochfrequente Bildmuster durch Rauschinjektion und Dual-Stream-Training entkoppelt, um generalisierbare, stabile und scharfe Schätzungen zu erreichen; (2) einem Normalen-zu-Geometrie-Lernansatz, der normalenreguliertes latentes Diffusionslernen verwendet, um die Fidelität der 3D-Geometrieerzeugung zu verbessern; und (3) einer 3D-Datensynthese-Pipeline, die einen hochwertigen Datensatz zur Unterstützung des Trainings erstellt. Umfangreiche Experimente demonstrieren die Effektivität und Überlegenheit unseres Frameworks bei der Erzeugung reichhaltiger geometrischer Details, wobei es state-of-the-art-Methoden in Bezug auf die Fidelität übertrifft. Unsere Arbeit bietet eine neue Richtung für die hochauflösende 3D-Geometrieerzeugung aus Bildern, indem Normalenmaps als Zwischenrepräsentation genutzt werden.

English

With the growing demand for high-fidelity 3D models from 2D images, existing methods still face significant challenges in accurately reproducing fine-grained geometric details due to limitations in domain gaps and inherent ambiguities in RGB images. To address these issues, we propose Hi3DGen, a novel framework for generating high-fidelity 3D geometry from images via normal bridging. Hi3DGen consists of three key components: (1) an image-to-normal estimator that decouples the low-high frequency image pattern with noise injection and dual-stream training to achieve generalizable, stable, and sharp estimation; (2) a normal-to-geometry learning approach that uses normal-regularized latent diffusion learning to enhance 3D geometry generation fidelity; and (3) a 3D data synthesis pipeline that constructs a high-quality dataset to support training. Extensive experiments demonstrate the effectiveness and superiority of our framework in generating rich geometric details, outperforming state-of-the-art methods in terms of fidelity. Our work provides a new direction for high-fidelity 3D geometry generation from images by leveraging normal maps as an intermediate representation.

Hi3DGen: Hochauflösende 3D-Geometrieerzeugung aus Bildern durch Normalenbrückenschaltung

Hi3DGen: High-fidelity 3D Geometry Generation from Images via Normal Bridging

papers.abstract

Support