SyncHuman: Synchronisatie van 2D- en 3D-generatieve modellen voor menselijke reconstructie vanuit enkelvoudig perspectief
SyncHuman: Synchronizing 2D and 3D Generative Models for Single-view Human Reconstruction
October 9, 2025
Auteurs: Wenyue Chen, Peng Li, Wangguandong Zheng, Chengfeng Zhao, Mengfei Li, Yaolong Zhu, Zhiyang Dou, Ronggang Wang, Yuan Liu
cs.AI
Samenvatting
Fotorealistische 3D-reconstructie van het volledige menselijk lichaam uit één enkele afbeelding is een cruciale maar uitdagende taak voor toepassingen in films en videogames vanwege inherente ambiguïteiten en ernstige zelf-occlusies. Hoewel recente methoden gebruikmaken van SMPL-schatting en op SMPL-geconditioneerde beeldgeneratieve modellen om nieuwe aanzichten te hallucineren, lijden zij onder onnauwkeurige 3D-priors geschat uit SMPL-meshes en hebben zij moeite met moeilijke menselijke houdingen en het reconstrueren van fijne details. In dit artikel stellen wij SyncHuman voor, een nieuw raamwerk dat voor het eerst een 2D-meerzicht-generatief model en een 3D-native generatief model combineert, waardoor hoogwaardige reconstructie van geklede menselijke meshes mogelijk wordt vanuit enkelvoudige beelden, zelfs bij uitdagende menselijke houdingen. Het meerzicht-generatieve model excelleert in het vastleggen van fijne 2D-details maar worstelt met structurele consistentie, terwijl het 3D-native generatieve model grove maar structureel consistente 3D-vormen genereert. Door de complementaire sterke punten van deze twee benaderingen te integreren, ontwikkelen wij een effectiever generatieraamwerk. Specifiek fine-tunen wij eerst gezamenlijk het meerzicht-generatieve model en het 3D-native generatieve model met een voorgestelde pixel-gealigneerde 2D-3D-synchronisatie-attentie om geometrisch uitgelijnde 3D-vormen en 2D-meerzichtbeelden te produceren. Om de details verder te verbeteren, introduceren wij een feature-injectiemechanisme dat fijne details optilt vanuit de 2D-meerzichtbeelden naar de uitgelijnde 3D-vormen, waardoor nauwkeurige en hoogwaardige reconstructie mogelijk wordt. Uitgebreide experimenten tonen aan dat SyncHuman robuuste en fotorealistische 3D-mensreconstructie bereikt, zelfs voor beelden met uitdagende houdingen. Onze methode overtreft baseline-methoden in geometrische nauwkeurigheid en visuele kwaliteit, wat een veelbelovende richting voor toekomstige 3D-generatiemodellen aantoont.
English
Photorealistic 3D full-body human reconstruction from a single image is a
critical yet challenging task for applications in films and video games due to
inherent ambiguities and severe self-occlusions. While recent approaches
leverage SMPL estimation and SMPL-conditioned image generative models to
hallucinate novel views, they suffer from inaccurate 3D priors estimated from
SMPL meshes and have difficulty in handling difficult human poses and
reconstructing fine details. In this paper, we propose SyncHuman, a novel
framework that combines 2D multiview generative model and 3D native generative
model for the first time, enabling high-quality clothed human mesh
reconstruction from single-view images even under challenging human poses.
Multiview generative model excels at capturing fine 2D details but struggles
with structural consistency, whereas 3D native generative model generates
coarse yet structurally consistent 3D shapes. By integrating the complementary
strengths of these two approaches, we develop a more effective generation
framework. Specifically, we first jointly fine-tune the multiview generative
model and the 3D native generative model with proposed pixel-aligned 2D-3D
synchronization attention to produce geometrically aligned 3D shapes and 2D
multiview images. To further improve details, we introduce a feature injection
mechanism that lifts fine details from 2D multiview images onto the aligned 3D
shapes, enabling accurate and high-fidelity reconstruction. Extensive
experiments demonstrate that SyncHuman achieves robust and photo-realistic 3D
human reconstruction, even for images with challenging poses. Our method
outperforms baseline methods in geometric accuracy and visual fidelity,
demonstrating a promising direction for future 3D generation models.