HumanDreamer-X: Reconstrução de Avatares Humanos Foto-realísticos a partir de Imagem Única via Restauração Gaussiana
HumanDreamer-X: Photorealistic Single-image Human Avatars Reconstruction via Gaussian Restoration
April 4, 2025
Autores: Boyuan Wang, Runqi Ouyang, Xiaofeng Wang, Zheng Zhu, Guosheng Zhao, Chaojun Ni, Guan Huang, Lihong Liu, Xingang Wang
cs.AI
Resumo
A reconstrução humana a partir de uma única imagem é crucial para aplicações de modelagem digital de humanos, mas permanece uma tarefa extremamente desafiadora. As abordagens atuais dependem de modelos generativos para sintetizar imagens multi-visão para subsequente reconstrução 3D e animação. No entanto, a geração direta de múltiplas visões a partir de uma única imagem humana sofre com inconsistências geométricas, resultando em problemas como membros fragmentados ou borrados nos modelos reconstruídos. Para superar essas limitações, introduzimos o HumanDreamer-X, um novo framework que integra a geração e reconstrução multi-visão de humanos em um pipeline unificado, o que melhora significativamente a consistência geométrica e a fidelidade visual dos modelos 3D reconstruídos. Neste framework, o 3D Gaussian Splatting serve como uma representação 3D explícita para fornecer prioridade inicial de geometria e aparência. Com base nessa fundação, o HumanFixer é treinado para restaurar renderizações 3DGS, garantindo resultados foto-realistas. Além disso, investigamos os desafios inerentes associados aos mecanismos de atenção na geração multi-visão de humanos e propomos uma estratégia de modulação de atenção que efetivamente melhora a consistência de detalhes geométricos e identidade através das múltiplas visões. Resultados experimentais demonstram que nossa abordagem melhora significativamente as métricas de qualidade PSNR de geração e reconstrução em 16,45% e 12,65%, respectivamente, alcançando um PSNR de até 25,62 dB, enquanto também mostra capacidades de generalização em dados do mundo real e aplicabilidade a vários modelos de backbone de reconstrução humana.
English
Single-image human reconstruction is vital for digital human modeling
applications but remains an extremely challenging task. Current approaches rely
on generative models to synthesize multi-view images for subsequent 3D
reconstruction and animation. However, directly generating multiple views from
a single human image suffers from geometric inconsistencies, resulting in
issues like fragmented or blurred limbs in the reconstructed models. To tackle
these limitations, we introduce HumanDreamer-X, a novel framework that
integrates multi-view human generation and reconstruction into a unified
pipeline, which significantly enhances the geometric consistency and visual
fidelity of the reconstructed 3D models. In this framework, 3D Gaussian
Splatting serves as an explicit 3D representation to provide initial geometry
and appearance priority. Building upon this foundation, HumanFixer is
trained to restore 3DGS renderings, which guarantee photorealistic results.
Furthermore, we delve into the inherent challenges associated with attention
mechanisms in multi-view human generation, and propose an attention modulation
strategy that effectively enhances geometric details identity consistency
across multi-view. Experimental results demonstrate that our approach markedly
improves generation and reconstruction PSNR quality metrics by 16.45% and
12.65%, respectively, achieving a PSNR of up to 25.62 dB, while also showing
generalization capabilities on in-the-wild data and applicability to various
human reconstruction backbone models.Summary
AI-Generated Summary