HumanDreamer-X: Fotorealistische Rekonstruktion menschlicher Avatare aus Einzelbildern mittels Gaußscher Restauration
HumanDreamer-X: Photorealistic Single-image Human Avatars Reconstruction via Gaussian Restoration
April 4, 2025
Autoren: Boyuan Wang, Runqi Ouyang, Xiaofeng Wang, Zheng Zhu, Guosheng Zhao, Chaojun Ni, Guan Huang, Lihong Liu, Xingang Wang
cs.AI
Zusammenfassung
Die Rekonstruktion von Menschen aus Einzelbildern ist entscheidend für Anwendungen der digitalen Menschmodellierung, bleibt jedoch eine äußerst anspruchsvolle Aufgabe. Aktuelle Ansätze stützen sich auf generative Modelle, um Multi-View-Bilder für die anschließende 3D-Rekonstruktion und Animation zu synthetisieren. Die direkte Erzeugung mehrerer Ansichten aus einem einzelnen menschlichen Bild führt jedoch zu geometrischen Inkonsistenzen, was Probleme wie fragmentierte oder verschwommene Gliedmaßen in den rekonstruierten Modellen verursacht. Um diese Einschränkungen zu überwinden, stellen wir HumanDreamer-X vor, ein neuartiges Framework, das die Multi-View-Menschengenerierung und -rekonstruktion in eine einheitliche Pipeline integriert und dadurch die geometrische Konsistenz und visuelle Qualität der rekonstruierten 3D-Modelle erheblich verbessert. In diesem Framework dient 3D Gaussian Splatting als explizite 3D-Darstellung, um eine initiale Geometrie und Priorität für das Erscheinungsbild bereitzustellen. Auf dieser Grundlage wird HumanFixer trainiert, um 3DGS-Renderings zu restaurieren, die fotorealistische Ergebnisse gewährleisten. Darüber hinaus untersuchen wir die inhärenten Herausforderungen, die mit Aufmerksamkeitsmechanismen bei der Multi-View-Menschengenerierung verbunden sind, und schlagen eine Aufmerksamkeitsmodulationsstrategie vor, die geometrische Details und Identitätskonsistenz über mehrere Ansichten hinweg effektiv verbessert. Experimentelle Ergebnisse zeigen, dass unser Ansatz die Qualitätsmetriken für Generierung und Rekonstruktion (PSNR) um 16,45 % bzw. 12,65 % deutlich verbessert und einen PSNR von bis zu 25,62 dB erreicht, während er gleichzeitig Generalisierungsfähigkeiten bei realen Daten und Anwendbarkeit auf verschiedene Rückgratmodelle für die menschliche Rekonstruktion aufweist.
English
Single-image human reconstruction is vital for digital human modeling
applications but remains an extremely challenging task. Current approaches rely
on generative models to synthesize multi-view images for subsequent 3D
reconstruction and animation. However, directly generating multiple views from
a single human image suffers from geometric inconsistencies, resulting in
issues like fragmented or blurred limbs in the reconstructed models. To tackle
these limitations, we introduce HumanDreamer-X, a novel framework that
integrates multi-view human generation and reconstruction into a unified
pipeline, which significantly enhances the geometric consistency and visual
fidelity of the reconstructed 3D models. In this framework, 3D Gaussian
Splatting serves as an explicit 3D representation to provide initial geometry
and appearance priority. Building upon this foundation, HumanFixer is
trained to restore 3DGS renderings, which guarantee photorealistic results.
Furthermore, we delve into the inherent challenges associated with attention
mechanisms in multi-view human generation, and propose an attention modulation
strategy that effectively enhances geometric details identity consistency
across multi-view. Experimental results demonstrate that our approach markedly
improves generation and reconstruction PSNR quality metrics by 16.45% and
12.65%, respectively, achieving a PSNR of up to 25.62 dB, while also showing
generalization capabilities on in-the-wild data and applicability to various
human reconstruction backbone models.Summary
AI-Generated Summary