ChatPaper.aiChatPaper

3D-Digitalisierung von Menschen aus Einzelbildern mit formgeführter Diffusion

Single-Image 3D Human Digitization with Shape-Guided Diffusion

November 15, 2023
Autoren: Badour AlBahar, Shunsuke Saito, Hung-Yu Tseng, Changil Kim, Johannes Kopf, Jia-Bin Huang
cs.AI

Zusammenfassung

Wir präsentieren einen Ansatz zur Erzeugung einer 360-Grad-Ansicht einer Person mit einem konsistenten, hochauflösenden Erscheinungsbild aus einem einzelnen Eingabebild. NeRF und seine Varianten benötigen typischerweise Videos oder Bilder aus verschiedenen Blickwinkeln. Die meisten bestehenden Ansätze, die monokulare Eingaben verwenden, verlassen sich entweder auf Ground-Truth-3D-Scans zur Überwachung oder mangelt es an 3D-Konsistenz. Während aktuelle 3D-Generierungsmodelle das Potenzial einer 3D-konsistenten Digitalisierung von Menschen zeigen, generalisieren diese Ansätze nicht gut auf diverse Kleidungserscheinungen, und die Ergebnisse mangelt es an Fotorealismus. Im Gegensatz zu bestehenden Arbeiten nutzen wir hochkapazitive 2D-Diffusionsmodelle, die für allgemeine Bildsyntheseaufgaben vortrainiert wurden, als Erscheinungs-Prior für bekleidete Menschen. Um eine bessere 3D-Konsistenz bei Beibehaltung der Eingabeidentität zu erreichen, synthetisieren wir schrittweise mehrere Ansichten des Menschen im Eingabebild, indem wir fehlende Regionen mit formgeführter Diffusion, die auf Silhouette und Oberflächennormale konditioniert ist, ausfüllen. Anschließend fusionieren wir diese synthetisierten Multi-View-Bilder durch inverses Rendering, um ein vollständig texturiertes, hochauflösendes 3D-Mesh der gegebenen Person zu erhalten. Experimente zeigen, dass unser Ansatz frühere Methoden übertrifft und einen fotorealistischen 360-Grad-Synthese einer breiten Palette von bekleideten Menschen mit komplexen Texturen aus einem einzelnen Bild erreicht.
English
We present an approach to generate a 360-degree view of a person with a consistent, high-resolution appearance from a single input image. NeRF and its variants typically require videos or images from different viewpoints. Most existing approaches taking monocular input either rely on ground-truth 3D scans for supervision or lack 3D consistency. While recent 3D generative models show promise of 3D consistent human digitization, these approaches do not generalize well to diverse clothing appearances, and the results lack photorealism. Unlike existing work, we utilize high-capacity 2D diffusion models pretrained for general image synthesis tasks as an appearance prior of clothed humans. To achieve better 3D consistency while retaining the input identity, we progressively synthesize multiple views of the human in the input image by inpainting missing regions with shape-guided diffusion conditioned on silhouette and surface normal. We then fuse these synthesized multi-view images via inverse rendering to obtain a fully textured high-resolution 3D mesh of the given person. Experiments show that our approach outperforms prior methods and achieves photorealistic 360-degree synthesis of a wide range of clothed humans with complex textures from a single image.
PDF221December 15, 2024