SyncHuman : Synchronisation des modèles génératifs 2D et 3D pour la reconstruction humaine à vue unique
SyncHuman: Synchronizing 2D and 3D Generative Models for Single-view Human Reconstruction
October 9, 2025
papers.authors: Wenyue Chen, Peng Li, Wangguandong Zheng, Chengfeng Zhao, Mengfei Li, Yaolong Zhu, Zhiyang Dou, Ronggang Wang, Yuan Liu
cs.AI
papers.abstract
La reconstruction photoréaliste en 3D du corps humain complet à partir d'une seule image est une tâche cruciale mais difficile pour les applications dans les films et les jeux vidéo, en raison des ambiguïtés intrinsèques et des autocclusions sévères. Si les approches récentes exploitent l'estimation SMPL et des modèles génératifs d'images conditionnés par SMPL pour générer de nouvelles vues, elles souffrent d'imprécisions des priors 3D estimés à partir des maillages SMPL et éprouvent des difficultés à traiter les poses humaines complexes et à reconstruire les détails fins. Dans cet article, nous proposons SyncHuman, une nouvelle architecture qui combine pour la première fois un modèle génératif multivue 2D et un modèle génératif natif 3D, permettant une reconstruction de maillages humains habillés de haute qualité à partir d'images monovues, même pour des poses humaines difficiles. Le modèle génératif multivue excelle à capturer les détails 2D fins mais peine avec la cohérence structurelle, tandis que le modèle génératif natif 3D génère des formes 3D grossières mais structurellement cohérentes. En intégrant les forces complémentaires de ces deux approches, nous développons un cadre de génération plus efficace. Concrètement, nous affinons conjointement le modèle génératif multivue et le modèle génératif natif 3D avec une attention de synchronisation 2D-3D alignée sur les pixels que nous proposons, pour produire des formes 3D et des images multivues 2D géométriquement alignées. Pour encore améliorer les détails, nous introduisons un mécanisme d'injection de caractéristiques qui transfère les détails fins des images multivues 2D vers les formes 3D alignées, permettant une reconstruction précise et fidèle. Des expériences approfondies démontrent que SyncHuman réalise une reconstruction 3D humaine robuste et photoréaliste, même pour des images avec des poses complexes. Notre méthode surpasse les méthodes de référence en précision géométrique et fidélité visuelle, indiquant une voie prometteuse pour les futurs modèles de génération 3D.
English
Photorealistic 3D full-body human reconstruction from a single image is a
critical yet challenging task for applications in films and video games due to
inherent ambiguities and severe self-occlusions. While recent approaches
leverage SMPL estimation and SMPL-conditioned image generative models to
hallucinate novel views, they suffer from inaccurate 3D priors estimated from
SMPL meshes and have difficulty in handling difficult human poses and
reconstructing fine details. In this paper, we propose SyncHuman, a novel
framework that combines 2D multiview generative model and 3D native generative
model for the first time, enabling high-quality clothed human mesh
reconstruction from single-view images even under challenging human poses.
Multiview generative model excels at capturing fine 2D details but struggles
with structural consistency, whereas 3D native generative model generates
coarse yet structurally consistent 3D shapes. By integrating the complementary
strengths of these two approaches, we develop a more effective generation
framework. Specifically, we first jointly fine-tune the multiview generative
model and the 3D native generative model with proposed pixel-aligned 2D-3D
synchronization attention to produce geometrically aligned 3D shapes and 2D
multiview images. To further improve details, we introduce a feature injection
mechanism that lifts fine details from 2D multiview images onto the aligned 3D
shapes, enabling accurate and high-fidelity reconstruction. Extensive
experiments demonstrate that SyncHuman achieves robust and photo-realistic 3D
human reconstruction, even for images with challenging poses. Our method
outperforms baseline methods in geometric accuracy and visual fidelity,
demonstrating a promising direction for future 3D generation models.