HumanDreamer-X : Reconstruction d'avatars humains photoréalistes à partir d'une seule image via la restauration gaussienne
HumanDreamer-X: Photorealistic Single-image Human Avatars Reconstruction via Gaussian Restoration
April 4, 2025
Auteurs: Boyuan Wang, Runqi Ouyang, Xiaofeng Wang, Zheng Zhu, Guosheng Zhao, Chaojun Ni, Guan Huang, Lihong Liu, Xingang Wang
cs.AI
Résumé
La reconstruction humaine à partir d'une seule image est essentielle pour les applications de modélisation numérique humaine, mais reste une tâche extrêmement complexe. Les approches actuelles s'appuient sur des modèles génératifs pour synthétiser des images multi-vues en vue d'une reconstruction 3D et d'une animation ultérieures. Cependant, la génération directe de multiples vues à partir d'une seule image humaine souffre d'incohérences géométriques, entraînant des problèmes tels que des membres fragmentés ou flous dans les modèles reconstruits. Pour surmonter ces limitations, nous introduisons HumanDreamer-X, un nouveau cadre qui intègre la génération et la reconstruction multi-vues humaines dans un pipeline unifié, améliorant significativement la cohérence géométrique et la fidélité visuelle des modèles 3D reconstruits. Dans ce cadre, le 3D Gaussian Splatting sert de représentation 3D explicite pour fournir une priorité initiale en termes de géométrie et d'apparence. Sur cette base, HumanFixer est entraîné pour restaurer les rendus 3DGS, garantissant des résultats photoréalistes. De plus, nous explorons les défis inhérents aux mécanismes d'attention dans la génération multi-vues humaine, et proposons une stratégie de modulation de l'attention qui améliore efficacement les détails géométriques et la cohérence d'identité à travers les multi-vues. Les résultats expérimentaux démontrent que notre approche améliore notablement les métriques de qualité PSNR de génération et de reconstruction de 16,45 % et 12,65 % respectivement, atteignant un PSNR allant jusqu'à 25,62 dB, tout en montrant des capacités de généralisation sur des données en conditions réelles et une applicabilité à divers modèles de base de reconstruction humaine.
English
Single-image human reconstruction is vital for digital human modeling
applications but remains an extremely challenging task. Current approaches rely
on generative models to synthesize multi-view images for subsequent 3D
reconstruction and animation. However, directly generating multiple views from
a single human image suffers from geometric inconsistencies, resulting in
issues like fragmented or blurred limbs in the reconstructed models. To tackle
these limitations, we introduce HumanDreamer-X, a novel framework that
integrates multi-view human generation and reconstruction into a unified
pipeline, which significantly enhances the geometric consistency and visual
fidelity of the reconstructed 3D models. In this framework, 3D Gaussian
Splatting serves as an explicit 3D representation to provide initial geometry
and appearance priority. Building upon this foundation, HumanFixer is
trained to restore 3DGS renderings, which guarantee photorealistic results.
Furthermore, we delve into the inherent challenges associated with attention
mechanisms in multi-view human generation, and propose an attention modulation
strategy that effectively enhances geometric details identity consistency
across multi-view. Experimental results demonstrate that our approach markedly
improves generation and reconstruction PSNR quality metrics by 16.45% and
12.65%, respectively, achieving a PSNR of up to 25.62 dB, while also showing
generalization capabilities on in-the-wild data and applicability to various
human reconstruction backbone models.Summary
AI-Generated Summary