SyncHuman: Sincronización de Modelos Generativos 2D y 3D para la Reconstrucción Humana desde una Vista Única
SyncHuman: Synchronizing 2D and 3D Generative Models for Single-view Human Reconstruction
October 9, 2025
Autores: Wenyue Chen, Peng Li, Wangguandong Zheng, Chengfeng Zhao, Mengfei Li, Yaolong Zhu, Zhiyang Dou, Ronggang Wang, Yuan Liu
cs.AI
Resumen
La reconstrucción fotorrealista en 3D de cuerpos humanos completos a partir de una sola imagen es una tarea crucial pero desafiante para aplicaciones en cine y videojuegos, debido a ambigüedades inherentes y graves auto-oclusiones. Si bien los enfoques recientes aprovechan la estimación SMPL y modelos generativos de imágenes condicionados por SMPL para generar nuevas vistas, adolecen de priors 3D inexactos estimados a partir de mallas SMPL y tienen dificultades para manejar poses humanas complejas y reconstruir detalles finos. En este artículo, proponemos SyncHuman, un marco novedoso que combina por primera vez un modelo generativo multivista 2D y un modelo generativo nativo 3D, permitiendo la reconstrucción de alta calidad de mallas humanas vestidas a partir de imágenes de vista única, incluso bajo poses humanas desafiantes. El modelo generativo multivista sobresale en capturar detalles finos en 2D pero lucha con la coherencia estructural, mientras que el modelo generativo nativo 3D genera formas 3D toscas pero estructuralmente coherentes. Al integrar las fortalezas complementarias de estos dos enfoques, desarrollamos un marco de generación más efectivo. Específicamente, primero ajustamos conjuntamente el modelo generativo multivista y el modelo generativo nativo 3D con la propuesta atención de sincronización 2D-3D alineada por píxeles para producir formas 3D y imágenes multivista 2D geométricamente alineadas. Para mejorar aún más los detalles, introducimos un mecanismo de inyección de características que transfiere detalles finos desde las imágenes multivista 2D a las formas 3D alineadas, permitiendo una reconstrucción precisa y de alta fidelidad. Experimentos exhaustivos demuestran que SyncHuman logra una reconstrucción 3D humana robusta y fotorrealista, incluso para imágenes con poses desafiantes. Nuestro método supera a los métodos base en precisión geométrica y fidelidad visual, demostrando una dirección prometedora para futuros modelos de generación 3D.
English
Photorealistic 3D full-body human reconstruction from a single image is a
critical yet challenging task for applications in films and video games due to
inherent ambiguities and severe self-occlusions. While recent approaches
leverage SMPL estimation and SMPL-conditioned image generative models to
hallucinate novel views, they suffer from inaccurate 3D priors estimated from
SMPL meshes and have difficulty in handling difficult human poses and
reconstructing fine details. In this paper, we propose SyncHuman, a novel
framework that combines 2D multiview generative model and 3D native generative
model for the first time, enabling high-quality clothed human mesh
reconstruction from single-view images even under challenging human poses.
Multiview generative model excels at capturing fine 2D details but struggles
with structural consistency, whereas 3D native generative model generates
coarse yet structurally consistent 3D shapes. By integrating the complementary
strengths of these two approaches, we develop a more effective generation
framework. Specifically, we first jointly fine-tune the multiview generative
model and the 3D native generative model with proposed pixel-aligned 2D-3D
synchronization attention to produce geometrically aligned 3D shapes and 2D
multiview images. To further improve details, we introduce a feature injection
mechanism that lifts fine details from 2D multiview images onto the aligned 3D
shapes, enabling accurate and high-fidelity reconstruction. Extensive
experiments demonstrate that SyncHuman achieves robust and photo-realistic 3D
human reconstruction, even for images with challenging poses. Our method
outperforms baseline methods in geometric accuracy and visual fidelity,
demonstrating a promising direction for future 3D generation models.