SyncHuman: Sincronizando Modelos Generativos 2D e 3D para Reconstrução Humana a Partir de Visão Única
SyncHuman: Synchronizing 2D and 3D Generative Models for Single-view Human Reconstruction
October 9, 2025
Autores: Wenyue Chen, Peng Li, Wangguandong Zheng, Chengfeng Zhao, Mengfei Li, Yaolong Zhu, Zhiyang Dou, Ronggang Wang, Yuan Liu
cs.AI
Resumo
A reconstrução fotorealista de corpos humanos completos em 3D a partir de uma única imagem é uma tarefa crítica, mas desafiadora, para aplicações em filmes e videojogos devido a ambiguidades inerentes e severas auto-oclusões. Embora abordagens recentes aproveitem a estimativa SMPL e modelos generativos de imagem condicionados por SMPL para alucinar novas perspetivas, elas sofrem com priors 3D imprecisos estimados a partir de malhas SMPL e têm dificuldade em lidar com poses humanas difíceis e reconstruir detalhes finos. Neste artigo, propomos o SyncHuman, uma nova estrutura que combina, pela primeira vez, um modelo generativo multivista 2D e um modelo generativo nativo 3D, permitindo a reconstrução de alta qualidade de malhas humanas vestidas a partir de imagens de vista única, mesmo sob poses humanas desafiadoras. O modelo generativo multivista destaca-se na captura de detalhes 2D finos, mas luta com a consistência estrutural, enquanto o modelo generativo nativo 3D gera formas 3D grosseiras, mas estruturalmente consistentes. Ao integrar os pontos fortes complementares destas duas abordagens, desenvolvemos uma estrutura de geração mais eficaz. Especificamente, primeiro afinamos conjuntamente o modelo generativo multivista e o modelo generativo nativo 3D com a proposta atenção de sincronização 2D-3D alinhada por píxel para produzir formas 3D geometricamente alinhadas e imagens multivista 2D. Para melhorar ainda mais os detalhes, introduzimos um mecanismo de injeção de características que levanta detalhes finos das imagens multivista 2D para as formas 3D alinhadas, permitindo uma reconstrução precisa e de alta fidelidade. Experimentos extensivos demonstram que o SyncHuman alcança uma reconstrução 3D humana robusta e fotorealista, mesmo para imagens com poses desafiadoras. O nosso método supera os métodos de base em precisão geométrica e fidelidade visual, demonstrando uma direção promissora para futuros modelos de geração 3D.
English
Photorealistic 3D full-body human reconstruction from a single image is a
critical yet challenging task for applications in films and video games due to
inherent ambiguities and severe self-occlusions. While recent approaches
leverage SMPL estimation and SMPL-conditioned image generative models to
hallucinate novel views, they suffer from inaccurate 3D priors estimated from
SMPL meshes and have difficulty in handling difficult human poses and
reconstructing fine details. In this paper, we propose SyncHuman, a novel
framework that combines 2D multiview generative model and 3D native generative
model for the first time, enabling high-quality clothed human mesh
reconstruction from single-view images even under challenging human poses.
Multiview generative model excels at capturing fine 2D details but struggles
with structural consistency, whereas 3D native generative model generates
coarse yet structurally consistent 3D shapes. By integrating the complementary
strengths of these two approaches, we develop a more effective generation
framework. Specifically, we first jointly fine-tune the multiview generative
model and the 3D native generative model with proposed pixel-aligned 2D-3D
synchronization attention to produce geometrically aligned 3D shapes and 2D
multiview images. To further improve details, we introduce a feature injection
mechanism that lifts fine details from 2D multiview images onto the aligned 3D
shapes, enabling accurate and high-fidelity reconstruction. Extensive
experiments demonstrate that SyncHuman achieves robust and photo-realistic 3D
human reconstruction, even for images with challenging poses. Our method
outperforms baseline methods in geometric accuracy and visual fidelity,
demonstrating a promising direction for future 3D generation models.