SyncHuman: Синхронизация 2D и 3D генеративных моделей для реконструкции человека по одному изображению
SyncHuman: Synchronizing 2D and 3D Generative Models for Single-view Human Reconstruction
October 9, 2025
Авторы: Wenyue Chen, Peng Li, Wangguandong Zheng, Chengfeng Zhao, Mengfei Li, Yaolong Zhu, Zhiyang Dou, Ronggang Wang, Yuan Liu
cs.AI
Аннотация
Фотореалистичная 3D-реконструкция полного тела человека по одному изображению является важной, но сложной задачей для применения в кино и видеоиграх из-за присущих неоднозначностей и серьезных самозатенений. В то время как современные подходы используют оценку SMPL и SMPL-условные генеративные модели изображений для синтеза новых ракурсов, они страдают от неточных 3D-приоров, оцененных по SMPL-сеткам, и испытывают трудности с обработкой сложных поз человека и реконструкцией мелких деталей. В данной статье мы предлагаем SyncHuman, новую архитектуру, которая впервые объединяет 2D-многовидовую генеративную модель и нативную 3D-генеративную модель, обеспечивая высококачественную реконструкцию одетой человеческой сетки по одноракурсным изображениям даже в случае сложных поз. Многовидовая генеративная модель хорошо справляется с захватом мелких 2D-деталей, но испытывает трудности со структурной согласованностью, тогда как нативная 3D-генеративная модель создает грубые, но структурно согласованные 3D-формы. Интегрируя взаимодополняющие преимущества этих двух подходов, мы разрабатываем более эффективную архитектуру генерации. В частности, мы сначала совместно дообучаем многовидовую генеративную модель и нативную 3D-генеративную модель с предложенным пиксельно-выровненным 2D-3D механизмом внимания для получения геометрически выровненных 3D-форм и 2D-многовидовых изображений. Для дальнейшего улучшения детализации мы вводим механизм инжекции признаков, который переносит мелкие детали с 2D-многовидовых изображений на выровненные 3D-формы, обеспечивая точную и высокодетальную реконструкцию. Многочисленные эксперименты демонстрируют, что SyncHuman достигает надежной и фотореалистичной 3D-реконструкции человека даже для изображений со сложными позами. Наш метод превосходит базовые методы по геометрической точности и визуальному правдоподобию, демонстрируя перспективное направление для будущих моделей 3D-генерации.
English
Photorealistic 3D full-body human reconstruction from a single image is a
critical yet challenging task for applications in films and video games due to
inherent ambiguities and severe self-occlusions. While recent approaches
leverage SMPL estimation and SMPL-conditioned image generative models to
hallucinate novel views, they suffer from inaccurate 3D priors estimated from
SMPL meshes and have difficulty in handling difficult human poses and
reconstructing fine details. In this paper, we propose SyncHuman, a novel
framework that combines 2D multiview generative model and 3D native generative
model for the first time, enabling high-quality clothed human mesh
reconstruction from single-view images even under challenging human poses.
Multiview generative model excels at capturing fine 2D details but struggles
with structural consistency, whereas 3D native generative model generates
coarse yet structurally consistent 3D shapes. By integrating the complementary
strengths of these two approaches, we develop a more effective generation
framework. Specifically, we first jointly fine-tune the multiview generative
model and the 3D native generative model with proposed pixel-aligned 2D-3D
synchronization attention to produce geometrically aligned 3D shapes and 2D
multiview images. To further improve details, we introduce a feature injection
mechanism that lifts fine details from 2D multiview images onto the aligned 3D
shapes, enabling accurate and high-fidelity reconstruction. Extensive
experiments demonstrate that SyncHuman achieves robust and photo-realistic 3D
human reconstruction, even for images with challenging poses. Our method
outperforms baseline methods in geometric accuracy and visual fidelity,
demonstrating a promising direction for future 3D generation models.