SyncHuman: Sincronizando Modelos Generativos 2D e 3D para Reconstrução Humana a Partir de Visão Única

Resumo

A reconstrução fotorealista de corpos humanos completos em 3D a partir de uma única imagem é uma tarefa crítica, mas desafiadora, para aplicações em filmes e videojogos devido a ambiguidades inerentes e severas auto-oclusões. Embora abordagens recentes aproveitem a estimativa SMPL e modelos generativos de imagem condicionados por SMPL para alucinar novas perspetivas, elas sofrem com priors 3D imprecisos estimados a partir de malhas SMPL e têm dificuldade em lidar com poses humanas difíceis e reconstruir detalhes finos. Neste artigo, propomos o SyncHuman, uma nova estrutura que combina, pela primeira vez, um modelo generativo multivista 2D e um modelo generativo nativo 3D, permitindo a reconstrução de alta qualidade de malhas humanas vestidas a partir de imagens de vista única, mesmo sob poses humanas desafiadoras. O modelo generativo multivista destaca-se na captura de detalhes 2D finos, mas luta com a consistência estrutural, enquanto o modelo generativo nativo 3D gera formas 3D grosseiras, mas estruturalmente consistentes. Ao integrar os pontos fortes complementares destas duas abordagens, desenvolvemos uma estrutura de geração mais eficaz. Especificamente, primeiro afinamos conjuntamente o modelo generativo multivista e o modelo generativo nativo 3D com a proposta atenção de sincronização 2D-3D alinhada por píxel para produzir formas 3D geometricamente alinhadas e imagens multivista 2D. Para melhorar ainda mais os detalhes, introduzimos um mecanismo de injeção de características que levanta detalhes finos das imagens multivista 2D para as formas 3D alinhadas, permitindo uma reconstrução precisa e de alta fidelidade. Experimentos extensivos demonstram que o SyncHuman alcança uma reconstrução 3D humana robusta e fotorealista, mesmo para imagens com poses desafiadoras. O nosso método supera os métodos de base em precisão geométrica e fidelidade visual, demonstrando uma direção promissora para futuros modelos de geração 3D.

English

Photorealistic 3D full-body human reconstruction from a single image is a critical yet challenging task for applications in films and video games due to inherent ambiguities and severe self-occlusions. While recent approaches leverage SMPL estimation and SMPL-conditioned image generative models to hallucinate novel views, they suffer from inaccurate 3D priors estimated from SMPL meshes and have difficulty in handling difficult human poses and reconstructing fine details. In this paper, we propose SyncHuman, a novel framework that combines 2D multiview generative model and 3D native generative model for the first time, enabling high-quality clothed human mesh reconstruction from single-view images even under challenging human poses. Multiview generative model excels at capturing fine 2D details but struggles with structural consistency, whereas 3D native generative model generates coarse yet structurally consistent 3D shapes. By integrating the complementary strengths of these two approaches, we develop a more effective generation framework. Specifically, we first jointly fine-tune the multiview generative model and the 3D native generative model with proposed pixel-aligned 2D-3D synchronization attention to produce geometrically aligned 3D shapes and 2D multiview images. To further improve details, we introduce a feature injection mechanism that lifts fine details from 2D multiview images onto the aligned 3D shapes, enabling accurate and high-fidelity reconstruction. Extensive experiments demonstrate that SyncHuman achieves robust and photo-realistic 3D human reconstruction, even for images with challenging poses. Our method outperforms baseline methods in geometric accuracy and visual fidelity, demonstrating a promising direction for future 3D generation models.

SyncHuman: Sincronizando Modelos Generativos 2D e 3D para Reconstrução Humana a Partir de Visão Única

SyncHuman: Synchronizing 2D and 3D Generative Models for Single-view Human Reconstruction

Resumo

Support