ChatPaper.aiChatPaper

SyncHuman: 단일 뷰 인체 재구성을 위한 2D 및 3D 생성 모델 동기화

SyncHuman: Synchronizing 2D and 3D Generative Models for Single-view Human Reconstruction

October 9, 2025
저자: Wenyue Chen, Peng Li, Wangguandong Zheng, Chengfeng Zhao, Mengfei Li, Yaolong Zhu, Zhiyang Dou, Ronggang Wang, Yuan Liu
cs.AI

초록

단일 영상에서 사실적인 3D 전신 인간 재구성은 본질적인 모호성과 심각한 자체 폐색으로 인해 영화 및 비디오 게임 응용 분야에서 중요하면서도 어려운 과제입니다. 최근 접근법들은 SMPL 추정과 SMPL 조건부 이미지 생성 모델을 활용하여 새로운 시점을 합성하지만, SMPL 메시에서 추정된 부정확한 3D 사전 정보로 인해 어려움을 겪으며 특히 어려운 인간 자세를 처리하고 미세한細節를 재구성하는 데 한계가 있습니다. 본 논문에서는 2D 다중 시점 생성 모델과 3D 네이티브 생성 모델을 최초로 결합한 새로운 프레임워크인 SyncHuman을 제안합니다. 이를 통해 도전적인 인간 자세에서도 단일 시점 영상으로부터 고품질의 의복을 입은 인간 메시 재구성이 가능합니다. 다중 시점 생성 모델은 미세한 2D 디테일을 포착하는 데 뛰어나지만 구조적 일관성에 어려움이 있고, 3D 네이티브 생성 모델은 거칠지만 구조적으로 일관된 3D 형상을 생성합니다. 본 연구는 이 두 접근법의 상호 보완적인 강점을 통합하여 보다 효과적인 생성 프레임워크를 개발합니다. 구체적으로, 우리는 제안하는 픽셀 정렬 2D-3D 동기화 주의력(Synchronization Attention)을 통해 기하학적으로 정렬된 3D 형상과 2D 다중 시점 영상을 생성하도록 다중 시점 생성 모델과 3D 네이티브 생성 모델을 공동 미세 조정합니다. 디테일을 더욱 개선하기 위해, 정렬된 3D 형상 위에 2D 다중 시점 영상의 미세한 디테일을 전달하는 특징 주입 메커니즘을 도입하여 정확하고 높은 충실도의 재구성을 가능하게 합니다. 광범위한 실험을 통해 SyncHuman이 도전적인 자세를 가진 영상에 대해서도 견고하고 사실적인 3D 인간 재구성을 달성함을 입증합니다. 우리의 방법은 기하학적 정확도와 시각적 충실도 측면에서 기준 방법들을 능가하며, 향후 3D 생성 모델을 위한 유망한 방향을 제시합니다.
English
Photorealistic 3D full-body human reconstruction from a single image is a critical yet challenging task for applications in films and video games due to inherent ambiguities and severe self-occlusions. While recent approaches leverage SMPL estimation and SMPL-conditioned image generative models to hallucinate novel views, they suffer from inaccurate 3D priors estimated from SMPL meshes and have difficulty in handling difficult human poses and reconstructing fine details. In this paper, we propose SyncHuman, a novel framework that combines 2D multiview generative model and 3D native generative model for the first time, enabling high-quality clothed human mesh reconstruction from single-view images even under challenging human poses. Multiview generative model excels at capturing fine 2D details but struggles with structural consistency, whereas 3D native generative model generates coarse yet structurally consistent 3D shapes. By integrating the complementary strengths of these two approaches, we develop a more effective generation framework. Specifically, we first jointly fine-tune the multiview generative model and the 3D native generative model with proposed pixel-aligned 2D-3D synchronization attention to produce geometrically aligned 3D shapes and 2D multiview images. To further improve details, we introduce a feature injection mechanism that lifts fine details from 2D multiview images onto the aligned 3D shapes, enabling accurate and high-fidelity reconstruction. Extensive experiments demonstrate that SyncHuman achieves robust and photo-realistic 3D human reconstruction, even for images with challenging poses. Our method outperforms baseline methods in geometric accuracy and visual fidelity, demonstrating a promising direction for future 3D generation models.
PDF41December 31, 2025