SyncHuman: 単一視点からの人物再構成のための2Dおよび3D生成モデルの同期
SyncHuman: Synchronizing 2D and 3D Generative Models for Single-view Human Reconstruction
October 9, 2025
著者: Wenyue Chen, Peng Li, Wangguandong Zheng, Chengfeng Zhao, Mengfei Li, Yaolong Zhu, Zhiyang Dou, Ronggang Wang, Yuan Liu
cs.AI
要旨
単一画像からの写真写実的な3D全身人体再構成は、映画やビデオゲームへの応用において、内在的な曖昧性と深刻な自己オクルージョンのため、重要でありながら困難な課題である。近年のアプローチはSMPL推定とSMPL条件付き画像生成モデルを活用して新規視点を生成するが、SMPLメッシュから推定される不正確な3D事前分布に悩まされ、難しい人体ポーズの処理や細部の再構築が困難である。本論文では、2D多視点生成モデルと3Dネイティブ生成モデルを初めて統合した新規フレームワークであるSyncHumanを提案する。これにより、挑戦的な人体ポーズ下であっても、単一視点画像からの高品質な衣服着用人体メッシュ再構成が可能となる。多視点生成モデルは細かい2Dの詳細を捉えるのに優れるが、構造的一貫性に課題がある。一方、3Dネイティブ生成モデルは粗いながらも構造的一貫性のある3D形状を生成する。これら二つのアプローチの相補的な強みを統合することで、より効果的な生成フレームワークを構築した。具体的には、まず、提案するピクセル位置合わせ2D-3D同期アテンションを用いて、多視点生成モデルと3Dネイティブ生成モデルを共同でファインチューニングし、幾何学的に位置合わせされた3D形状と2D多視点画像を生成する。細部をさらに改善するため、2D多視点画像から細かい詳細を位置合わせされた3D形状に転写する特徴注入機構を導入し、正確で高精細な再構成を実現する。大規模な実験により、SyncHumanが挑戦的なポーズの画像に対しても、頑健かつ写真写実的な3D人体再構成を達成することを実証した。本手法は、幾何学的精度と視覚的忠実度においてベースラインメソッドを凌駕し、将来の3D生成モデルへの有望な方向性を示している。
English
Photorealistic 3D full-body human reconstruction from a single image is a
critical yet challenging task for applications in films and video games due to
inherent ambiguities and severe self-occlusions. While recent approaches
leverage SMPL estimation and SMPL-conditioned image generative models to
hallucinate novel views, they suffer from inaccurate 3D priors estimated from
SMPL meshes and have difficulty in handling difficult human poses and
reconstructing fine details. In this paper, we propose SyncHuman, a novel
framework that combines 2D multiview generative model and 3D native generative
model for the first time, enabling high-quality clothed human mesh
reconstruction from single-view images even under challenging human poses.
Multiview generative model excels at capturing fine 2D details but struggles
with structural consistency, whereas 3D native generative model generates
coarse yet structurally consistent 3D shapes. By integrating the complementary
strengths of these two approaches, we develop a more effective generation
framework. Specifically, we first jointly fine-tune the multiview generative
model and the 3D native generative model with proposed pixel-aligned 2D-3D
synchronization attention to produce geometrically aligned 3D shapes and 2D
multiview images. To further improve details, we introduce a feature injection
mechanism that lifts fine details from 2D multiview images onto the aligned 3D
shapes, enabling accurate and high-fidelity reconstruction. Extensive
experiments demonstrate that SyncHuman achieves robust and photo-realistic 3D
human reconstruction, even for images with challenging poses. Our method
outperforms baseline methods in geometric accuracy and visual fidelity,
demonstrating a promising direction for future 3D generation models.