ChatPaper.aiChatPaper

SyncHuman : Synchronisation des modèles génératifs 2D et 3D pour la reconstruction humaine à vue unique

SyncHuman: Synchronizing 2D and 3D Generative Models for Single-view Human Reconstruction

October 9, 2025
papers.authors: Wenyue Chen, Peng Li, Wangguandong Zheng, Chengfeng Zhao, Mengfei Li, Yaolong Zhu, Zhiyang Dou, Ronggang Wang, Yuan Liu
cs.AI

papers.abstract

La reconstruction photoréaliste en 3D du corps humain complet à partir d'une seule image est une tâche cruciale mais difficile pour les applications dans les films et les jeux vidéo, en raison des ambiguïtés intrinsèques et des autocclusions sévères. Si les approches récentes exploitent l'estimation SMPL et des modèles génératifs d'images conditionnés par SMPL pour générer de nouvelles vues, elles souffrent d'imprécisions des priors 3D estimés à partir des maillages SMPL et éprouvent des difficultés à traiter les poses humaines complexes et à reconstruire les détails fins. Dans cet article, nous proposons SyncHuman, une nouvelle architecture qui combine pour la première fois un modèle génératif multivue 2D et un modèle génératif natif 3D, permettant une reconstruction de maillages humains habillés de haute qualité à partir d'images monovues, même pour des poses humaines difficiles. Le modèle génératif multivue excelle à capturer les détails 2D fins mais peine avec la cohérence structurelle, tandis que le modèle génératif natif 3D génère des formes 3D grossières mais structurellement cohérentes. En intégrant les forces complémentaires de ces deux approches, nous développons un cadre de génération plus efficace. Concrètement, nous affinons conjointement le modèle génératif multivue et le modèle génératif natif 3D avec une attention de synchronisation 2D-3D alignée sur les pixels que nous proposons, pour produire des formes 3D et des images multivues 2D géométriquement alignées. Pour encore améliorer les détails, nous introduisons un mécanisme d'injection de caractéristiques qui transfère les détails fins des images multivues 2D vers les formes 3D alignées, permettant une reconstruction précise et fidèle. Des expériences approfondies démontrent que SyncHuman réalise une reconstruction 3D humaine robuste et photoréaliste, même pour des images avec des poses complexes. Notre méthode surpasse les méthodes de référence en précision géométrique et fidélité visuelle, indiquant une voie prometteuse pour les futurs modèles de génération 3D.
English
Photorealistic 3D full-body human reconstruction from a single image is a critical yet challenging task for applications in films and video games due to inherent ambiguities and severe self-occlusions. While recent approaches leverage SMPL estimation and SMPL-conditioned image generative models to hallucinate novel views, they suffer from inaccurate 3D priors estimated from SMPL meshes and have difficulty in handling difficult human poses and reconstructing fine details. In this paper, we propose SyncHuman, a novel framework that combines 2D multiview generative model and 3D native generative model for the first time, enabling high-quality clothed human mesh reconstruction from single-view images even under challenging human poses. Multiview generative model excels at capturing fine 2D details but struggles with structural consistency, whereas 3D native generative model generates coarse yet structurally consistent 3D shapes. By integrating the complementary strengths of these two approaches, we develop a more effective generation framework. Specifically, we first jointly fine-tune the multiview generative model and the 3D native generative model with proposed pixel-aligned 2D-3D synchronization attention to produce geometrically aligned 3D shapes and 2D multiview images. To further improve details, we introduce a feature injection mechanism that lifts fine details from 2D multiview images onto the aligned 3D shapes, enabling accurate and high-fidelity reconstruction. Extensive experiments demonstrate that SyncHuman achieves robust and photo-realistic 3D human reconstruction, even for images with challenging poses. Our method outperforms baseline methods in geometric accuracy and visual fidelity, demonstrating a promising direction for future 3D generation models.
PDF41December 31, 2025