ChatPaper.aiChatPaper

MagicMan : Synthèse de vue de roman générative des humains avec diffusion consciente en 3D et affinage itératif

MagicMan: Generative Novel View Synthesis of Humans with 3D-Aware Diffusion and Iterative Refinement

August 26, 2024
Auteurs: Xu He, Xiaoyu Li, Di Kang, Jiangnan Ye, Chaopeng Zhang, Liyang Chen, Xiangjun Gao, Han Zhang, Zhiyong Wu, Haolin Zhuang
cs.AI

Résumé

Les travaux existants sur la reconstruction humaine à partir d'une seule image souffrent d'une faible généralisabilité en raison d'un manque de données d'entraînement suffisantes ou d'incohérences en 3D pour un manque de connaissances multi-vues complètes. Dans cet article, nous présentons MagicMan, un modèle de diffusion multi-vues spécifique aux humains conçu pour générer des images de nouvelles vues de haute qualité à partir d'une seule image de référence. À sa base, nous exploitons un modèle de diffusion 2D pré-entraîné en tant que prior générateur pour la généralisabilité, avec le modèle paramétrique SMPL-X en tant que prior du corps en 3D pour promouvoir la conscience en 3D. Pour relever le défi critique de maintenir la cohérence tout en réalisant une génération dense multi-vues pour une amélioration de la reconstruction humaine en 3D, nous introduisons d'abord une attention multi-vues hybride pour faciliter à la fois un échange d'informations efficace et approfondi entre différentes vues. De plus, nous présentons une double branche consciente de la géométrie pour effectuer une génération simultanée dans les domaines RGB et des normales, renforçant encore la cohérence via des indices géométriques. Enfin, pour résoudre les problèmes de forme incorrecte résultant d'une estimation imprécise de SMPL-X en conflit avec l'image de référence, nous proposons une nouvelle stratégie de raffinement itératif, qui optimise progressivement l'exactitude de SMPL-X tout en améliorant la qualité et la cohérence des vues multiples générées. Des résultats expérimentaux approfondis démontrent que notre méthode surpasse significativement les approches existantes à la fois dans la synthèse de nouvelles vues et les tâches subséquentes de reconstruction humaine en 3D.
English
Existing works in single-image human reconstruction suffer from weak generalizability due to insufficient training data or 3D inconsistencies for a lack of comprehensive multi-view knowledge. In this paper, we introduce MagicMan, a human-specific multi-view diffusion model designed to generate high-quality novel view images from a single reference image. As its core, we leverage a pre-trained 2D diffusion model as the generative prior for generalizability, with the parametric SMPL-X model as the 3D body prior to promote 3D awareness. To tackle the critical challenge of maintaining consistency while achieving dense multi-view generation for improved 3D human reconstruction, we first introduce hybrid multi-view attention to facilitate both efficient and thorough information interchange across different views. Additionally, we present a geometry-aware dual branch to perform concurrent generation in both RGB and normal domains, further enhancing consistency via geometry cues. Last but not least, to address ill-shaped issues arising from inaccurate SMPL-X estimation that conflicts with the reference image, we propose a novel iterative refinement strategy, which progressively optimizes SMPL-X accuracy while enhancing the quality and consistency of the generated multi-views. Extensive experimental results demonstrate that our method significantly outperforms existing approaches in both novel view synthesis and subsequent 3D human reconstruction tasks.

Summary

AI-Generated Summary

PDF112November 16, 2024