SyncHuman: Sincronizzazione di modelli generativi 2D e 3D per la ricostruzione umana da vista singola
SyncHuman: Synchronizing 2D and 3D Generative Models for Single-view Human Reconstruction
October 9, 2025
Autori: Wenyue Chen, Peng Li, Wangguandong Zheng, Chengfeng Zhao, Mengfei Li, Yaolong Zhu, Zhiyang Dou, Ronggang Wang, Yuan Liu
cs.AI
Abstract
La ricostruzione fotorealistica di corpi umani 3D completi a partire da una singola immagine è un compito cruciale ma impegnativo per applicazioni cinematografiche e videoludiche, a causa di ambiguità intrinseche e severi auto-occlusioni. Sebbene gli approcci recenti sfruttino la stima SMPL e modelli generativi di immagini condizionati da SMPL per generare nuove visuali, essi soffrono di inaccurate prior 3D stimate dalle mesh SMPL e incontrano difficoltà nella gestione di pose umane complesse e nella ricostruzione di dettagli fini. In questo articolo, proponiamo SyncHuman, un framework innovativo che combina per la prima volta un modello generativo multivista 2D e un modello generativo nativo 3D, consentendo la ricostruzione di mesh umani vestiti di alta qualità da immagini single-view, anche in pose umane impegnative. Il modello generativo multivista eccelle nella cattura di dettagli 2D fini ma fatica con la coerenza strutturale, mentre il modello generativo nativo 3D genera forme 3D grossolane ma strutturalmente coerenti. Integrando i punti di forza complementari di questi due approcci, sviluppiamo un framework di generazione più efficace. Nello specifico, ottimizziamo congiuntamente il modello generativo multivista e il modello generativo nativo 3D mediante una proposta attenzione di sincronizzazione 2D-3D allineata a pixel, per produrre forme 3D geometricamente allineate e immagini multivista 2D. Per migliorare ulteriormente i dettagli, introduciamo un meccanismo di iniezione di feature che trasferisce i dettagli fini dalle immagini multivista 2D sulle forme 3D allineate, abilitando una ricostruzione accurata e ad alta fedeltà. Esperimenti estensivi dimostrano che SyncHuman raggiunge una ricostruzione 3D umana robusta e fotorealistica, anche per immagini con pose complesse. Il nostro metodo supera i metodi baseline in accuratezza geometrica e fedeltà visiva, indicando una direzione promettente per i futuri modelli di generazione 3D.
English
Photorealistic 3D full-body human reconstruction from a single image is a
critical yet challenging task for applications in films and video games due to
inherent ambiguities and severe self-occlusions. While recent approaches
leverage SMPL estimation and SMPL-conditioned image generative models to
hallucinate novel views, they suffer from inaccurate 3D priors estimated from
SMPL meshes and have difficulty in handling difficult human poses and
reconstructing fine details. In this paper, we propose SyncHuman, a novel
framework that combines 2D multiview generative model and 3D native generative
model for the first time, enabling high-quality clothed human mesh
reconstruction from single-view images even under challenging human poses.
Multiview generative model excels at capturing fine 2D details but struggles
with structural consistency, whereas 3D native generative model generates
coarse yet structurally consistent 3D shapes. By integrating the complementary
strengths of these two approaches, we develop a more effective generation
framework. Specifically, we first jointly fine-tune the multiview generative
model and the 3D native generative model with proposed pixel-aligned 2D-3D
synchronization attention to produce geometrically aligned 3D shapes and 2D
multiview images. To further improve details, we introduce a feature injection
mechanism that lifts fine details from 2D multiview images onto the aligned 3D
shapes, enabling accurate and high-fidelity reconstruction. Extensive
experiments demonstrate that SyncHuman achieves robust and photo-realistic 3D
human reconstruction, even for images with challenging poses. Our method
outperforms baseline methods in geometric accuracy and visual fidelity,
demonstrating a promising direction for future 3D generation models.