HumanDreamer-X : Reconstruction d'avatars humains photoréalistes à partir d'une seule image via la restauration gaussienne

papers.abstract

La reconstruction humaine à partir d'une seule image est essentielle pour les applications de modélisation numérique humaine, mais reste une tâche extrêmement complexe. Les approches actuelles s'appuient sur des modèles génératifs pour synthétiser des images multi-vues en vue d'une reconstruction 3D et d'une animation ultérieures. Cependant, la génération directe de multiples vues à partir d'une seule image humaine souffre d'incohérences géométriques, entraînant des problèmes tels que des membres fragmentés ou flous dans les modèles reconstruits. Pour surmonter ces limitations, nous introduisons HumanDreamer-X, un nouveau cadre qui intègre la génération et la reconstruction multi-vues humaines dans un pipeline unifié, améliorant significativement la cohérence géométrique et la fidélité visuelle des modèles 3D reconstruits. Dans ce cadre, le 3D Gaussian Splatting sert de représentation 3D explicite pour fournir une priorité initiale en termes de géométrie et d'apparence. Sur cette base, HumanFixer est entraîné pour restaurer les rendus 3DGS, garantissant des résultats photoréalistes. De plus, nous explorons les défis inhérents aux mécanismes d'attention dans la génération multi-vues humaine, et proposons une stratégie de modulation de l'attention qui améliore efficacement les détails géométriques et la cohérence d'identité à travers les multi-vues. Les résultats expérimentaux démontrent que notre approche améliore notablement les métriques de qualité PSNR de génération et de reconstruction de 16,45 % et 12,65 % respectivement, atteignant un PSNR allant jusqu'à 25,62 dB, tout en montrant des capacités de généralisation sur des données en conditions réelles et une applicabilité à divers modèles de base de reconstruction humaine.

English

Single-image human reconstruction is vital for digital human modeling applications but remains an extremely challenging task. Current approaches rely on generative models to synthesize multi-view images for subsequent 3D reconstruction and animation. However, directly generating multiple views from a single human image suffers from geometric inconsistencies, resulting in issues like fragmented or blurred limbs in the reconstructed models. To tackle these limitations, we introduce HumanDreamer-X, a novel framework that integrates multi-view human generation and reconstruction into a unified pipeline, which significantly enhances the geometric consistency and visual fidelity of the reconstructed 3D models. In this framework, 3D Gaussian Splatting serves as an explicit 3D representation to provide initial geometry and appearance priority. Building upon this foundation, HumanFixer is trained to restore 3DGS renderings, which guarantee photorealistic results. Furthermore, we delve into the inherent challenges associated with attention mechanisms in multi-view human generation, and propose an attention modulation strategy that effectively enhances geometric details identity consistency across multi-view. Experimental results demonstrate that our approach markedly improves generation and reconstruction PSNR quality metrics by 16.45% and 12.65%, respectively, achieving a PSNR of up to 25.62 dB, while also showing generalization capabilities on in-the-wild data and applicability to various human reconstruction backbone models.

HumanDreamer-X : Reconstruction d'avatars humains photoréalistes à partir d'une seule image via la restauration gaussienne

HumanDreamer-X: Photorealistic Single-image Human Avatars Reconstruction via Gaussian Restoration

papers.abstract

Support