HumanDreamer-X: Ricostruzione di Avatar Umani Fotorealistici da Singola Immagine tramite Restauro Gaussiano
HumanDreamer-X: Photorealistic Single-image Human Avatars Reconstruction via Gaussian Restoration
April 4, 2025
Autori: Boyuan Wang, Runqi Ouyang, Xiaofeng Wang, Zheng Zhu, Guosheng Zhao, Chaojun Ni, Guan Huang, Lihong Liu, Xingang Wang
cs.AI
Abstract
La ricostruzione umana da singola immagine è fondamentale per le applicazioni di modellazione digitale umana, ma rimane un compito estremamente impegnativo. Gli approcci attuali si basano su modelli generativi per sintetizzare immagini multi-vista per la successiva ricostruzione 3D e animazione. Tuttavia, la generazione diretta di più viste da una singola immagine umana soffre di inconsistenze geometriche, portando a problemi come arti frammentati o sfocati nei modelli ricostruiti. Per affrontare queste limitazioni, introduciamo HumanDreamer-X, un nuovo framework che integra la generazione e la ricostruzione multi-vista umana in una pipeline unificata, migliorando significativamente la consistenza geometrica e la fedeltà visiva dei modelli 3D ricostruiti. In questo framework, il 3D Gaussian Splatting funge da rappresentazione 3D esplicita per fornire una priorità geometrica e di aspetto iniziale. Su questa base, HumanFixer viene addestrato per ripristinare le renderizzazioni 3DGS, garantendo risultati fotorealistici. Inoltre, approfondiamo le sfide intrinseche associate ai meccanismi di attenzione nella generazione multi-vista umana e proponiamo una strategia di modulazione dell'attenzione che migliora efficacemente i dettagli geometrici e la consistenza dell'identità attraverso le multi-viste. I risultati sperimentali dimostrano che il nostro approccio migliora notevolmente le metriche di qualità PSNR della generazione e della ricostruzione rispettivamente del 16,45% e del 12,65%, raggiungendo un PSNR fino a 25,62 dB, mostrando anche capacità di generalizzazione su dati in-the-wild e applicabilità a vari modelli di ricostruzione umana di base.
English
Single-image human reconstruction is vital for digital human modeling
applications but remains an extremely challenging task. Current approaches rely
on generative models to synthesize multi-view images for subsequent 3D
reconstruction and animation. However, directly generating multiple views from
a single human image suffers from geometric inconsistencies, resulting in
issues like fragmented or blurred limbs in the reconstructed models. To tackle
these limitations, we introduce HumanDreamer-X, a novel framework that
integrates multi-view human generation and reconstruction into a unified
pipeline, which significantly enhances the geometric consistency and visual
fidelity of the reconstructed 3D models. In this framework, 3D Gaussian
Splatting serves as an explicit 3D representation to provide initial geometry
and appearance priority. Building upon this foundation, HumanFixer is
trained to restore 3DGS renderings, which guarantee photorealistic results.
Furthermore, we delve into the inherent challenges associated with attention
mechanisms in multi-view human generation, and propose an attention modulation
strategy that effectively enhances geometric details identity consistency
across multi-view. Experimental results demonstrate that our approach markedly
improves generation and reconstruction PSNR quality metrics by 16.45% and
12.65%, respectively, achieving a PSNR of up to 25.62 dB, while also showing
generalization capabilities on in-the-wild data and applicability to various
human reconstruction backbone models.Summary
AI-Generated Summary