ChatPaper.aiChatPaper

HumanDreamer-X: Reconstrução de Avatares Humanos Foto-realísticos a partir de Imagem Única via Restauração Gaussiana

HumanDreamer-X: Photorealistic Single-image Human Avatars Reconstruction via Gaussian Restoration

April 4, 2025
Autores: Boyuan Wang, Runqi Ouyang, Xiaofeng Wang, Zheng Zhu, Guosheng Zhao, Chaojun Ni, Guan Huang, Lihong Liu, Xingang Wang
cs.AI

Resumo

A reconstrução humana a partir de uma única imagem é crucial para aplicações de modelagem digital de humanos, mas permanece uma tarefa extremamente desafiadora. As abordagens atuais dependem de modelos generativos para sintetizar imagens multi-visão para subsequente reconstrução 3D e animação. No entanto, a geração direta de múltiplas visões a partir de uma única imagem humana sofre com inconsistências geométricas, resultando em problemas como membros fragmentados ou borrados nos modelos reconstruídos. Para superar essas limitações, introduzimos o HumanDreamer-X, um novo framework que integra a geração e reconstrução multi-visão de humanos em um pipeline unificado, o que melhora significativamente a consistência geométrica e a fidelidade visual dos modelos 3D reconstruídos. Neste framework, o 3D Gaussian Splatting serve como uma representação 3D explícita para fornecer prioridade inicial de geometria e aparência. Com base nessa fundação, o HumanFixer é treinado para restaurar renderizações 3DGS, garantindo resultados foto-realistas. Além disso, investigamos os desafios inerentes associados aos mecanismos de atenção na geração multi-visão de humanos e propomos uma estratégia de modulação de atenção que efetivamente melhora a consistência de detalhes geométricos e identidade através das múltiplas visões. Resultados experimentais demonstram que nossa abordagem melhora significativamente as métricas de qualidade PSNR de geração e reconstrução em 16,45% e 12,65%, respectivamente, alcançando um PSNR de até 25,62 dB, enquanto também mostra capacidades de generalização em dados do mundo real e aplicabilidade a vários modelos de backbone de reconstrução humana.
English
Single-image human reconstruction is vital for digital human modeling applications but remains an extremely challenging task. Current approaches rely on generative models to synthesize multi-view images for subsequent 3D reconstruction and animation. However, directly generating multiple views from a single human image suffers from geometric inconsistencies, resulting in issues like fragmented or blurred limbs in the reconstructed models. To tackle these limitations, we introduce HumanDreamer-X, a novel framework that integrates multi-view human generation and reconstruction into a unified pipeline, which significantly enhances the geometric consistency and visual fidelity of the reconstructed 3D models. In this framework, 3D Gaussian Splatting serves as an explicit 3D representation to provide initial geometry and appearance priority. Building upon this foundation, HumanFixer is trained to restore 3DGS renderings, which guarantee photorealistic results. Furthermore, we delve into the inherent challenges associated with attention mechanisms in multi-view human generation, and propose an attention modulation strategy that effectively enhances geometric details identity consistency across multi-view. Experimental results demonstrate that our approach markedly improves generation and reconstruction PSNR quality metrics by 16.45% and 12.65%, respectively, achieving a PSNR of up to 25.62 dB, while also showing generalization capabilities on in-the-wild data and applicability to various human reconstruction backbone models.

Summary

AI-Generated Summary

PDF132April 7, 2025