ChatPaper.aiChatPaper

HumanDreamer-X: Fotorealistische Rekonstruktion menschlicher Avatare aus Einzelbildern mittels Gaußscher Restauration

HumanDreamer-X: Photorealistic Single-image Human Avatars Reconstruction via Gaussian Restoration

April 4, 2025
Autoren: Boyuan Wang, Runqi Ouyang, Xiaofeng Wang, Zheng Zhu, Guosheng Zhao, Chaojun Ni, Guan Huang, Lihong Liu, Xingang Wang
cs.AI

Zusammenfassung

Die Rekonstruktion von Menschen aus Einzelbildern ist entscheidend für Anwendungen der digitalen Menschmodellierung, bleibt jedoch eine äußerst anspruchsvolle Aufgabe. Aktuelle Ansätze stützen sich auf generative Modelle, um Multi-View-Bilder für die anschließende 3D-Rekonstruktion und Animation zu synthetisieren. Die direkte Erzeugung mehrerer Ansichten aus einem einzelnen menschlichen Bild führt jedoch zu geometrischen Inkonsistenzen, was Probleme wie fragmentierte oder verschwommene Gliedmaßen in den rekonstruierten Modellen verursacht. Um diese Einschränkungen zu überwinden, stellen wir HumanDreamer-X vor, ein neuartiges Framework, das die Multi-View-Menschengenerierung und -rekonstruktion in eine einheitliche Pipeline integriert und dadurch die geometrische Konsistenz und visuelle Qualität der rekonstruierten 3D-Modelle erheblich verbessert. In diesem Framework dient 3D Gaussian Splatting als explizite 3D-Darstellung, um eine initiale Geometrie und Priorität für das Erscheinungsbild bereitzustellen. Auf dieser Grundlage wird HumanFixer trainiert, um 3DGS-Renderings zu restaurieren, die fotorealistische Ergebnisse gewährleisten. Darüber hinaus untersuchen wir die inhärenten Herausforderungen, die mit Aufmerksamkeitsmechanismen bei der Multi-View-Menschengenerierung verbunden sind, und schlagen eine Aufmerksamkeitsmodulationsstrategie vor, die geometrische Details und Identitätskonsistenz über mehrere Ansichten hinweg effektiv verbessert. Experimentelle Ergebnisse zeigen, dass unser Ansatz die Qualitätsmetriken für Generierung und Rekonstruktion (PSNR) um 16,45 % bzw. 12,65 % deutlich verbessert und einen PSNR von bis zu 25,62 dB erreicht, während er gleichzeitig Generalisierungsfähigkeiten bei realen Daten und Anwendbarkeit auf verschiedene Rückgratmodelle für die menschliche Rekonstruktion aufweist.
English
Single-image human reconstruction is vital for digital human modeling applications but remains an extremely challenging task. Current approaches rely on generative models to synthesize multi-view images for subsequent 3D reconstruction and animation. However, directly generating multiple views from a single human image suffers from geometric inconsistencies, resulting in issues like fragmented or blurred limbs in the reconstructed models. To tackle these limitations, we introduce HumanDreamer-X, a novel framework that integrates multi-view human generation and reconstruction into a unified pipeline, which significantly enhances the geometric consistency and visual fidelity of the reconstructed 3D models. In this framework, 3D Gaussian Splatting serves as an explicit 3D representation to provide initial geometry and appearance priority. Building upon this foundation, HumanFixer is trained to restore 3DGS renderings, which guarantee photorealistic results. Furthermore, we delve into the inherent challenges associated with attention mechanisms in multi-view human generation, and propose an attention modulation strategy that effectively enhances geometric details identity consistency across multi-view. Experimental results demonstrate that our approach markedly improves generation and reconstruction PSNR quality metrics by 16.45% and 12.65%, respectively, achieving a PSNR of up to 25.62 dB, while also showing generalization capabilities on in-the-wild data and applicability to various human reconstruction backbone models.

Summary

AI-Generated Summary

PDF132April 7, 2025