Hi3DGen: Geração de Geometria 3D de Alta Fidelidade a partir de Imagens via Ponteamento de Normais
Hi3DGen: High-fidelity 3D Geometry Generation from Images via Normal Bridging
March 28, 2025
Autores: Chongjie Ye, Yushuang Wu, Ziteng Lu, Jiahao Chang, Xiaoyang Guo, Jiaqing Zhou, Hao Zhao, Xiaoguang Han
cs.AI
Resumo
Com a crescente demanda por modelos 3D de alta fidelidade a partir de imagens 2D, os métodos existentes ainda enfrentam desafios significativos na reprodução precisa de detalhes geométricos refinados devido a limitações nas lacunas de domínio e ambiguidades inerentes nas imagens RGB. Para abordar esses problemas, propomos o Hi3DGen, uma nova estrutura para gerar geometria 3D de alta fidelidade a partir de imagens por meio de mapeamento de normais. O Hi3DGen consiste em três componentes principais: (1) um estimador de imagem para normal que desacopla o padrão de imagem de baixa e alta frequência com injeção de ruído e treinamento de fluxo duplo para alcançar uma estimação generalizável, estável e precisa; (2) uma abordagem de aprendizado de normal para geometria que utiliza aprendizado de difusão latente regularizada por normais para melhorar a fidelidade na geração de geometria 3D; e (3) um pipeline de síntese de dados 3D que constrói um conjunto de dados de alta qualidade para suportar o treinamento. Experimentos extensivos demonstram a eficácia e superioridade de nossa estrutura na geração de detalhes geométricos ricos, superando métodos state-of-the-art em termos de fidelidade. Nosso trabalho fornece uma nova direção para a geração de geometria 3D de alta fidelidade a partir de imagens, utilizando mapas de normais como uma representação intermediária.
English
With the growing demand for high-fidelity 3D models from 2D images, existing
methods still face significant challenges in accurately reproducing
fine-grained geometric details due to limitations in domain gaps and inherent
ambiguities in RGB images. To address these issues, we propose Hi3DGen, a novel
framework for generating high-fidelity 3D geometry from images via normal
bridging. Hi3DGen consists of three key components: (1) an image-to-normal
estimator that decouples the low-high frequency image pattern with noise
injection and dual-stream training to achieve generalizable, stable, and sharp
estimation; (2) a normal-to-geometry learning approach that uses
normal-regularized latent diffusion learning to enhance 3D geometry generation
fidelity; and (3) a 3D data synthesis pipeline that constructs a high-quality
dataset to support training. Extensive experiments demonstrate the
effectiveness and superiority of our framework in generating rich geometric
details, outperforming state-of-the-art methods in terms of fidelity. Our work
provides a new direction for high-fidelity 3D geometry generation from images
by leveraging normal maps as an intermediate representation.