ChatPaper.aiChatPaper

Numérisation 3D humaine à partir d'une seule image avec diffusion guidée par la forme

Single-Image 3D Human Digitization with Shape-Guided Diffusion

November 15, 2023
Auteurs: Badour AlBahar, Shunsuke Saito, Hung-Yu Tseng, Changil Kim, Johannes Kopf, Jia-Bin Huang
cs.AI

Résumé

Nous présentons une approche pour générer une vue à 360 degrés d'une personne avec une apparence cohérente et haute résolution à partir d'une seule image d'entrée. Les NeRF et leurs variantes nécessitent généralement des vidéos ou des images provenant de différents points de vue. La plupart des approches existantes utilisant une entrée monoculaire reposent soit sur des scans 3D de référence pour la supervision, soit manquent de cohérence 3D. Bien que les modèles génératifs 3D récents montrent un potentiel pour la numérisation cohérente en 3D de personnes, ces approches ne généralisent pas bien à des apparences vestimentaires variées, et les résultats manquent de photoréalisme. Contrairement aux travaux existants, nous utilisons des modèles de diffusion 2D à haute capacité pré-entraînés pour des tâches de synthèse d'images générales comme a priori d'apparence pour des personnes habillées. Pour obtenir une meilleure cohérence 3D tout en conservant l'identité de l'entrée, nous synthétisons progressivement plusieurs vues de la personne dans l'image d'entrée en complétant les régions manquantes avec une diffusion guidée par la forme, conditionnée par la silhouette et la normale de surface. Nous fusionnons ensuite ces images multi-vues synthétisées via un rendu inverse pour obtenir un maillage 3D entièrement texturé et haute résolution de la personne donnée. Les expériences montrent que notre approche surpasse les méthodes précédentes et réalise une synthèse photoréaliste à 360 degrés d'une large gamme de personnes habillées avec des textures complexes à partir d'une seule image.
English
We present an approach to generate a 360-degree view of a person with a consistent, high-resolution appearance from a single input image. NeRF and its variants typically require videos or images from different viewpoints. Most existing approaches taking monocular input either rely on ground-truth 3D scans for supervision or lack 3D consistency. While recent 3D generative models show promise of 3D consistent human digitization, these approaches do not generalize well to diverse clothing appearances, and the results lack photorealism. Unlike existing work, we utilize high-capacity 2D diffusion models pretrained for general image synthesis tasks as an appearance prior of clothed humans. To achieve better 3D consistency while retaining the input identity, we progressively synthesize multiple views of the human in the input image by inpainting missing regions with shape-guided diffusion conditioned on silhouette and surface normal. We then fuse these synthesized multi-view images via inverse rendering to obtain a fully textured high-resolution 3D mesh of the given person. Experiments show that our approach outperforms prior methods and achieves photorealistic 360-degree synthesis of a wide range of clothed humans with complex textures from a single image.
PDF221December 15, 2024