HumanDreamer-X: Fotorealistische reconstructie van menselijke avatars uit enkele afbeeldingen via Gaussiaans herstel

Samenvatting

Reconstructie van mensen uit één afbeelding is essentieel voor toepassingen in digitaal menselijk modelleren, maar blijft een uiterst uitdagende taak. Huidige benaderingen vertrouwen op generatieve modellen om multi-view afbeeldingen te synthetiseren voor latere 3D-reconstructie en animatie. Het direct genereren van meerdere views vanuit één menselijke afbeelding leidt echter tot geometrische inconsistenties, wat resulteert in problemen zoals gefragmenteerde of vervaagde ledematen in de gereconstrueerde modellen. Om deze beperkingen aan te pakken, introduceren we HumanDreamer-X, een nieuw framework dat multi-view menselijke generatie en reconstructie integreert in een uniforme pipeline, wat de geometrische consistentie en visuele kwaliteit van de gereconstrueerde 3D-modellen aanzienlijk verbetert. In dit framework dient 3D Gaussian Splatting als een expliciete 3D-representatie om initiële geometrie en uiterlijk prioriteit te bieden. Op deze basis wordt HumanFixer getraind om 3DGS-renderingen te herstellen, wat fotorealistische resultaten garandeert. Bovendien gaan we in op de inherente uitdagingen die gepaard gaan met aandachtmechanismen in multi-view menselijke generatie, en stellen we een aandachtmodulatiestrategie voor die effectief geometrische details en identiteitsconsistentie over multi-view verbetert. Experimentele resultaten tonen aan dat onze aanpak de generatie- en reconstructie-PSNR-kwaliteitsmetingen met respectievelijk 16,45% en 12,65% verbetert, met een PSNR van maximaal 25,62 dB, terwijl het ook generalisatiecapaciteiten op in-the-wild data en toepasbaarheid op verschillende menselijke reconstructie-backbonemodellen aantoont.

English

Single-image human reconstruction is vital for digital human modeling applications but remains an extremely challenging task. Current approaches rely on generative models to synthesize multi-view images for subsequent 3D reconstruction and animation. However, directly generating multiple views from a single human image suffers from geometric inconsistencies, resulting in issues like fragmented or blurred limbs in the reconstructed models. To tackle these limitations, we introduce HumanDreamer-X, a novel framework that integrates multi-view human generation and reconstruction into a unified pipeline, which significantly enhances the geometric consistency and visual fidelity of the reconstructed 3D models. In this framework, 3D Gaussian Splatting serves as an explicit 3D representation to provide initial geometry and appearance priority. Building upon this foundation, HumanFixer is trained to restore 3DGS renderings, which guarantee photorealistic results. Furthermore, we delve into the inherent challenges associated with attention mechanisms in multi-view human generation, and propose an attention modulation strategy that effectively enhances geometric details identity consistency across multi-view. Experimental results demonstrate that our approach markedly improves generation and reconstruction PSNR quality metrics by 16.45% and 12.65%, respectively, achieving a PSNR of up to 25.62 dB, while also showing generalization capabilities on in-the-wild data and applicability to various human reconstruction backbone models.

HumanDreamer-X: Fotorealistische reconstructie van menselijke avatars uit enkele afbeeldingen via Gaussiaans herstel

HumanDreamer-X: Photorealistic Single-image Human Avatars Reconstruction via Gaussian Restoration

Samenvatting

Support