ChatPaper.aiChatPaper

HumanDreamer-X: Reconstrucción de Avatares Humanos Fotorealistas a partir de una Única Imagen mediante Restauración Gaussiana

HumanDreamer-X: Photorealistic Single-image Human Avatars Reconstruction via Gaussian Restoration

April 4, 2025
Autores: Boyuan Wang, Runqi Ouyang, Xiaofeng Wang, Zheng Zhu, Guosheng Zhao, Chaojun Ni, Guan Huang, Lihong Liu, Xingang Wang
cs.AI

Resumen

La reconstrucción humana a partir de una sola imagen es fundamental para las aplicaciones de modelado digital de humanos, pero sigue siendo una tarea extremadamente desafiante. Los enfoques actuales dependen de modelos generativos para sintetizar imágenes multi-vista que luego se utilizan para la reconstrucción y animación 3D. Sin embargo, la generación directa de múltiples vistas a partir de una sola imagen humana sufre de inconsistencias geométricas, lo que resulta en problemas como extremidades fragmentadas o borrosas en los modelos reconstruidos. Para abordar estas limitaciones, presentamos HumanDreamer-X, un marco novedoso que integra la generación y reconstrucción multi-vista en una única canalización, lo que mejora significativamente la consistencia geométrica y la fidelidad visual de los modelos 3D reconstruidos. En este marco, el Splatting Gaussiano 3D sirve como una representación 3D explícita para proporcionar una prioridad inicial de geometría y apariencia. Sobre esta base, se entrena HumanFixer para restaurar las representaciones 3DGS, garantizando resultados fotorrealistas. Además, profundizamos en los desafíos inherentes asociados con los mecanismos de atención en la generación multi-vista de humanos y proponemos una estrategia de modulación de atención que mejora efectivamente los detalles geométricos y la consistencia de identidad en múltiples vistas. Los resultados experimentales demuestran que nuestro enfoque mejora notablemente las métricas de calidad PSNR en generación y reconstrucción en un 16.45% y 12.65%, respectivamente, alcanzando un PSNR de hasta 25.62 dB, mientras que también muestra capacidades de generalización en datos del mundo real y aplicabilidad a varios modelos base de reconstrucción humana.
English
Single-image human reconstruction is vital for digital human modeling applications but remains an extremely challenging task. Current approaches rely on generative models to synthesize multi-view images for subsequent 3D reconstruction and animation. However, directly generating multiple views from a single human image suffers from geometric inconsistencies, resulting in issues like fragmented or blurred limbs in the reconstructed models. To tackle these limitations, we introduce HumanDreamer-X, a novel framework that integrates multi-view human generation and reconstruction into a unified pipeline, which significantly enhances the geometric consistency and visual fidelity of the reconstructed 3D models. In this framework, 3D Gaussian Splatting serves as an explicit 3D representation to provide initial geometry and appearance priority. Building upon this foundation, HumanFixer is trained to restore 3DGS renderings, which guarantee photorealistic results. Furthermore, we delve into the inherent challenges associated with attention mechanisms in multi-view human generation, and propose an attention modulation strategy that effectively enhances geometric details identity consistency across multi-view. Experimental results demonstrate that our approach markedly improves generation and reconstruction PSNR quality metrics by 16.45% and 12.65%, respectively, achieving a PSNR of up to 25.62 dB, while also showing generalization capabilities on in-the-wild data and applicability to various human reconstruction backbone models.

Summary

AI-Generated Summary

PDF132April 7, 2025