Hi3DGen: Hochauflösende 3D-Geometrieerzeugung aus Bildern durch Normalenbrückenschaltung
Hi3DGen: High-fidelity 3D Geometry Generation from Images via Normal Bridging
March 28, 2025
Autoren: Chongjie Ye, Yushuang Wu, Ziteng Lu, Jiahao Chang, Xiaoyang Guo, Jiaqing Zhou, Hao Zhao, Xiaoguang Han
cs.AI
Zusammenfassung
Mit der zunehmenden Nachfrage nach hochauflösenden 3D-Modellen aus 2D-Bildern stehen bestehende Methoden weiterhin vor erheblichen Herausforderungen bei der präzisen Reproduktion feingliedriger geometrischer Details, bedingt durch Domänenlücken und inhärente Mehrdeutigkeiten in RGB-Bildern. Um diese Probleme zu lösen, schlagen wir Hi3DGen vor, ein neuartiges Framework zur Erzeugung hochauflösender 3D-Geometrie aus Bildern über Normalenbrücken. Hi3DGen besteht aus drei Schlüsselkomponenten: (1) einem Bild-zu-Normalen-Schätzer, der nieder- und hochfrequente Bildmuster durch Rauschinjektion und Dual-Stream-Training entkoppelt, um generalisierbare, stabile und scharfe Schätzungen zu erreichen; (2) einem Normalen-zu-Geometrie-Lernansatz, der normalenreguliertes latentes Diffusionslernen verwendet, um die Fidelität der 3D-Geometrieerzeugung zu verbessern; und (3) einer 3D-Datensynthese-Pipeline, die einen hochwertigen Datensatz zur Unterstützung des Trainings erstellt. Umfangreiche Experimente demonstrieren die Effektivität und Überlegenheit unseres Frameworks bei der Erzeugung reichhaltiger geometrischer Details, wobei es state-of-the-art-Methoden in Bezug auf die Fidelität übertrifft. Unsere Arbeit bietet eine neue Richtung für die hochauflösende 3D-Geometrieerzeugung aus Bildern, indem Normalenmaps als Zwischenrepräsentation genutzt werden.
English
With the growing demand for high-fidelity 3D models from 2D images, existing
methods still face significant challenges in accurately reproducing
fine-grained geometric details due to limitations in domain gaps and inherent
ambiguities in RGB images. To address these issues, we propose Hi3DGen, a novel
framework for generating high-fidelity 3D geometry from images via normal
bridging. Hi3DGen consists of three key components: (1) an image-to-normal
estimator that decouples the low-high frequency image pattern with noise
injection and dual-stream training to achieve generalizable, stable, and sharp
estimation; (2) a normal-to-geometry learning approach that uses
normal-regularized latent diffusion learning to enhance 3D geometry generation
fidelity; and (3) a 3D data synthesis pipeline that constructs a high-quality
dataset to support training. Extensive experiments demonstrate the
effectiveness and superiority of our framework in generating rich geometric
details, outperforming state-of-the-art methods in terms of fidelity. Our work
provides a new direction for high-fidelity 3D geometry generation from images
by leveraging normal maps as an intermediate representation.Summary
AI-Generated Summary