SyncHuman: Synchronisierung von 2D- und 3D-Generativen Modellen für die Einzelbild-Rekonstruktion menschlicher Körper
SyncHuman: Synchronizing 2D and 3D Generative Models for Single-view Human Reconstruction
October 9, 2025
papers.authors: Wenyue Chen, Peng Li, Wangguandong Zheng, Chengfeng Zhao, Mengfei Li, Yaolong Zhu, Zhiyang Dou, Ronggang Wang, Yuan Liu
cs.AI
papers.abstract
Die photorealistische 3D-Ganzkörperrekonstruktion von Menschen aus einem einzelnen Bild ist eine kritische, aber herausfordernde Aufgabe für Anwendungen in Filmen und Videospielen aufgrund inhärenter Mehrdeutigkeiten und schwerer Selbstokklusionen. Während aktuelle Ansätze SMPL-Schätzungen und SMPL-konditionierte Bildgenerierungsmodelle nutzen, um neue Ansichten zu halluzinieren, leiden sie unter ungenauen 3D-Priors, die aus SMPL-Meshes geschätzt werden, und haben Schwierigkeiten mit schwierigen menschlichen Posen und der Rekonstruktion feiner Details. In diesem Artikel schlagen wir SyncHuman vor, ein neuartiges Framework, das erstmals ein 2D-Multiview-Generativmodell und ein 3D-natives Generativmodell kombiniert und so eine hochwertige Rekonstruktion bekleideter menschlicher Meshes aus einseitigen Bildansichten selbst bei anspruchsvollen Posen ermöglicht. Multiview-Generativmodelle erfassen hervorragend feine 2D-Details, kämpfen aber mit struktureller Konsistenz, während 3D-native Generativmodelle grobe, aber strukturell konsistente 3D-Formen erzeugen. Durch die Integration dieser komplementären Stärken entwickeln wir ein effektiveres Generierungsframework. Konkret feintunen wir zunächst gemeinsam das Multiview-Generativmodell und das 3D-native Generativmodell mit einem vorgeschlagenen pixelausgerichteten 2D-3D-Synchronisations-Attentionsmechanismus, um geometrisch ausgerichtete 3D-Formen und 2D-Multiview-Bilder zu erzeugen. Um Details weiter zu verbessern, führen wir einen Feature-Injection-Mechanismus ein, der feine Details aus 2D-Multiview-Bildern auf die ausgerichteten 3D-Formen überträgt und so eine präzise, hochaufgelöste Rekonstruktion ermöglicht. Umfangreiche Experimente zeigen, dass SyncHuman eine robuste und photorealistische 3D-Menschenrekonstruktion erreicht, selbst für Bilder mit anspruchsvollen Posen. Unsere Methode übertrifft Baseline-Methoden in geometrischer Genauigkeit und visueller Treue und weist eine vielversprechende Richtung für zukünftige 3D-Generierungsmodelle auf.
English
Photorealistic 3D full-body human reconstruction from a single image is a
critical yet challenging task for applications in films and video games due to
inherent ambiguities and severe self-occlusions. While recent approaches
leverage SMPL estimation and SMPL-conditioned image generative models to
hallucinate novel views, they suffer from inaccurate 3D priors estimated from
SMPL meshes and have difficulty in handling difficult human poses and
reconstructing fine details. In this paper, we propose SyncHuman, a novel
framework that combines 2D multiview generative model and 3D native generative
model for the first time, enabling high-quality clothed human mesh
reconstruction from single-view images even under challenging human poses.
Multiview generative model excels at capturing fine 2D details but struggles
with structural consistency, whereas 3D native generative model generates
coarse yet structurally consistent 3D shapes. By integrating the complementary
strengths of these two approaches, we develop a more effective generation
framework. Specifically, we first jointly fine-tune the multiview generative
model and the 3D native generative model with proposed pixel-aligned 2D-3D
synchronization attention to produce geometrically aligned 3D shapes and 2D
multiview images. To further improve details, we introduce a feature injection
mechanism that lifts fine details from 2D multiview images onto the aligned 3D
shapes, enabling accurate and high-fidelity reconstruction. Extensive
experiments demonstrate that SyncHuman achieves robust and photo-realistic 3D
human reconstruction, even for images with challenging poses. Our method
outperforms baseline methods in geometric accuracy and visual fidelity,
demonstrating a promising direction for future 3D generation models.