ChatPaper.aiChatPaper

Effiziente 3D-Generierung artikulierter menschlicher Figuren mit geschichteten Oberflächenvolumen

Efficient 3D Articulated Human Generation with Layered Surface Volumes

July 11, 2023
Autoren: Yinghao Xu, Wang Yifan, Alexander W. Bergman, Menglei Chai, Bolei Zhou, Gordon Wetzstein
cs.AI

Zusammenfassung

Der Zugang zu hochwertigen und vielfältigen 3D-artikulierten digitalen Menschmodellen ist in verschiedenen Anwendungen, von der virtuellen Realität bis hin zu sozialen Plattformen, von entscheidender Bedeutung. Generative Ansätze, wie 3D-Generative Adversarial Networks (GANs), ersetzen zunehmend aufwendige manuelle Inhaltserstellungstools. Allerdings basieren bestehende 3D-GAN-Frameworks typischerweise auf Szenendarstellungen, die entweder auf Template-Meshes setzen, die zwar schnell sind, aber nur begrenzte Qualität bieten, oder auf Volumen, die eine hohe Kapazität bieten, aber langsam zu rendern sind, wodurch die 3D-Treue in GAN-Umgebungen eingeschränkt wird. In dieser Arbeit führen wir geschichtete Oberflächenvolumen (Layered Surface Volumes, LSVs) als eine neue 3D-Objekt-Darstellung für artikulierte digitale Menschen ein. LSVs repräsentieren einen menschlichen Körper mithilfe mehrerer texturierter Mesh-Schichten um ein konventionelles Template herum. Diese Schichten werden mittels Alpha-Compositing mit schneller differenzierbarer Rasterisierung gerendert und können als eine volumetrische Darstellung interpretiert werden, die ihre Kapazität auf eine Mannigfaltigkeit endlicher Dicke um das Template herum verteilt. Im Gegensatz zu konventionellen Einzelschicht-Templates, die Schwierigkeiten haben, feine Details außerhalb der Oberfläche wie Haare oder Accessoires darzustellen, erfassen unsere Oberflächenvolumen solche Details auf natürliche Weise. LSVs können artikuliert werden und zeigen eine außergewöhnliche Effizienz in GAN-Umgebungen, in denen ein 2D-Generator lernt, die RGBA-Texturen für die einzelnen Schichten zu synthetisieren. Trainiert auf unstrukturierten, einseitigen 2D-Bilddatensätzen, erzeugt unser LSV-GAN hochwertige und sichtkonsistente 3D-artikulierte digitale Menschen, ohne dass sichtinkonsistente 2D-Upsampling-Netzwerke benötigt werden.
English
Access to high-quality and diverse 3D articulated digital human assets is crucial in various applications, ranging from virtual reality to social platforms. Generative approaches, such as 3D generative adversarial networks (GANs), are rapidly replacing laborious manual content creation tools. However, existing 3D GAN frameworks typically rely on scene representations that leverage either template meshes, which are fast but offer limited quality, or volumes, which offer high capacity but are slow to render, thereby limiting the 3D fidelity in GAN settings. In this work, we introduce layered surface volumes (LSVs) as a new 3D object representation for articulated digital humans. LSVs represent a human body using multiple textured mesh layers around a conventional template. These layers are rendered using alpha compositing with fast differentiable rasterization, and they can be interpreted as a volumetric representation that allocates its capacity to a manifold of finite thickness around the template. Unlike conventional single-layer templates that struggle with representing fine off-surface details like hair or accessories, our surface volumes naturally capture such details. LSVs can be articulated, and they exhibit exceptional efficiency in GAN settings, where a 2D generator learns to synthesize the RGBA textures for the individual layers. Trained on unstructured, single-view 2D image datasets, our LSV-GAN generates high-quality and view-consistent 3D articulated digital humans without the need for view-inconsistent 2D upsampling networks.
PDF80December 15, 2024