HumanDreamer-X: Fotorealistische reconstructie van menselijke avatars uit enkele afbeeldingen via Gaussiaans herstel
HumanDreamer-X: Photorealistic Single-image Human Avatars Reconstruction via Gaussian Restoration
April 4, 2025
Auteurs: Boyuan Wang, Runqi Ouyang, Xiaofeng Wang, Zheng Zhu, Guosheng Zhao, Chaojun Ni, Guan Huang, Lihong Liu, Xingang Wang
cs.AI
Samenvatting
Reconstructie van mensen uit één afbeelding is essentieel voor toepassingen in digitaal menselijk modelleren, maar blijft een uiterst uitdagende taak. Huidige benaderingen vertrouwen op generatieve modellen om multi-view afbeeldingen te synthetiseren voor latere 3D-reconstructie en animatie. Het direct genereren van meerdere views vanuit één menselijke afbeelding leidt echter tot geometrische inconsistenties, wat resulteert in problemen zoals gefragmenteerde of vervaagde ledematen in de gereconstrueerde modellen. Om deze beperkingen aan te pakken, introduceren we HumanDreamer-X, een nieuw framework dat multi-view menselijke generatie en reconstructie integreert in een uniforme pipeline, wat de geometrische consistentie en visuele kwaliteit van de gereconstrueerde 3D-modellen aanzienlijk verbetert. In dit framework dient 3D Gaussian Splatting als een expliciete 3D-representatie om initiële geometrie en uiterlijk prioriteit te bieden. Op deze basis wordt HumanFixer getraind om 3DGS-renderingen te herstellen, wat fotorealistische resultaten garandeert. Bovendien gaan we in op de inherente uitdagingen die gepaard gaan met aandachtmechanismen in multi-view menselijke generatie, en stellen we een aandachtmodulatiestrategie voor die effectief geometrische details en identiteitsconsistentie over multi-view verbetert. Experimentele resultaten tonen aan dat onze aanpak de generatie- en reconstructie-PSNR-kwaliteitsmetingen met respectievelijk 16,45% en 12,65% verbetert, met een PSNR van maximaal 25,62 dB, terwijl het ook generalisatiecapaciteiten op in-the-wild data en toepasbaarheid op verschillende menselijke reconstructie-backbonemodellen aantoont.
English
Single-image human reconstruction is vital for digital human modeling
applications but remains an extremely challenging task. Current approaches rely
on generative models to synthesize multi-view images for subsequent 3D
reconstruction and animation. However, directly generating multiple views from
a single human image suffers from geometric inconsistencies, resulting in
issues like fragmented or blurred limbs in the reconstructed models. To tackle
these limitations, we introduce HumanDreamer-X, a novel framework that
integrates multi-view human generation and reconstruction into a unified
pipeline, which significantly enhances the geometric consistency and visual
fidelity of the reconstructed 3D models. In this framework, 3D Gaussian
Splatting serves as an explicit 3D representation to provide initial geometry
and appearance priority. Building upon this foundation, HumanFixer is
trained to restore 3DGS renderings, which guarantee photorealistic results.
Furthermore, we delve into the inherent challenges associated with attention
mechanisms in multi-view human generation, and propose an attention modulation
strategy that effectively enhances geometric details identity consistency
across multi-view. Experimental results demonstrate that our approach markedly
improves generation and reconstruction PSNR quality metrics by 16.45% and
12.65%, respectively, achieving a PSNR of up to 25.62 dB, while also showing
generalization capabilities on in-the-wild data and applicability to various
human reconstruction backbone models.Summary
AI-Generated Summary