ChatPaper.aiChatPaper

Эффективная генерация 3D-артикулированных человеческих моделей с использованием слоистых объемов поверхности

Efficient 3D Articulated Human Generation with Layered Surface Volumes

July 11, 2023
Авторы: Yinghao Xu, Wang Yifan, Alexander W. Bergman, Menglei Chai, Bolei Zhou, Gordon Wetzstein
cs.AI

Аннотация

Доступ к высококачественным и разнообразным 3D-моделям цифровых людей с артикуляцией имеет решающее значение для различных приложений, начиная от виртуальной реальности и заканчивая социальными платформами. Генеративные подходы, такие как генеративные состязательные сети (GAN) для 3D, быстро заменяют трудоемкие инструменты ручного создания контента. Однако существующие 3D GAN-фреймворки обычно полагаются на представления сцены, которые используют либо шаблонные сетки, которые быстры, но предлагают ограниченное качество, либо объемные данные, которые обладают высокой емкостью, но медленно рендерятся, что ограничивает 3D-точность в настройках GAN. В данной работе мы представляем слоистые объемные поверхности (LSV) как новое представление 3D-объектов для артикулированных цифровых людей. LSV представляют человеческое тело с использованием нескольких текстурированных слоев сетки вокруг стандартного шаблона. Эти слои рендерятся с использованием альфа-композиции и быстрой дифференцируемой растеризации, и их можно интерпретировать как объемное представление, которое распределяет свою емкость на многообразие конечной толщины вокруг шаблона. В отличие от традиционных однослойных шаблонов, которые испытывают трудности с представлением мелких деталей вне поверхности, таких как волосы или аксессуары, наши объемные поверхности естественным образом захватывают такие детали. LSV могут быть артикулированы и демонстрируют исключительную эффективность в настройках GAN, где 2D-генератор учится синтезировать RGBA-текстуры для отдельных слоев. Обучаясь на неструктурированных наборах 2D-изображений с одного ракурса, наш LSV-GAN генерирует высококачественные и согласованные по виду 3D-модели цифровых людей с артикуляцией без необходимости использования 2D-сетей повышения разрешения, которые могут нарушать согласованность вида.
English
Access to high-quality and diverse 3D articulated digital human assets is crucial in various applications, ranging from virtual reality to social platforms. Generative approaches, such as 3D generative adversarial networks (GANs), are rapidly replacing laborious manual content creation tools. However, existing 3D GAN frameworks typically rely on scene representations that leverage either template meshes, which are fast but offer limited quality, or volumes, which offer high capacity but are slow to render, thereby limiting the 3D fidelity in GAN settings. In this work, we introduce layered surface volumes (LSVs) as a new 3D object representation for articulated digital humans. LSVs represent a human body using multiple textured mesh layers around a conventional template. These layers are rendered using alpha compositing with fast differentiable rasterization, and they can be interpreted as a volumetric representation that allocates its capacity to a manifold of finite thickness around the template. Unlike conventional single-layer templates that struggle with representing fine off-surface details like hair or accessories, our surface volumes naturally capture such details. LSVs can be articulated, and they exhibit exceptional efficiency in GAN settings, where a 2D generator learns to synthesize the RGBA textures for the individual layers. Trained on unstructured, single-view 2D image datasets, our LSV-GAN generates high-quality and view-consistent 3D articulated digital humans without the need for view-inconsistent 2D upsampling networks.
PDF80December 15, 2024