En3D: Усовершенствованная генеративная модель для создания 3D-моделей человека на основе 2D-синтетических данных
En3D: An Enhanced Generative Model for Sculpting 3D Humans from 2D Synthetic Data
January 2, 2024
Авторы: Yifang Men, Biwen Lei, Yuan Yao, Miaomiao Cui, Zhouhui Lian, Xuansong Xie
cs.AI
Аннотация
Мы представляем En3D, усовершенствованную генеративную схему для создания высококачественных 3D-аватаров человека. В отличие от предыдущих работ, которые опираются на ограниченные 3D-наборы данных или скудные 2D-коллекции с несбалансированными углами обзора и неточными априорными данными о позах, наш подход направлен на разработку генеративной схемы для создания 3D-моделей в режиме "zero-shot", способной производить визуально реалистичные, геометрически точные и содержательно разнообразные 3D-модели человека без использования предварительно существующих 3D- или 2D-активов. Для решения этой задачи мы предлагаем тщательно проработанный рабочий процесс, который включает точное физическое моделирование для обучения улучшенной 3D-генеративной модели на основе синтетических 2D-данных. На этапе вывода мы интегрируем оптимизационные модули, чтобы устранить разрыв между реалистичным внешним видом и грубыми 3D-формами. В частности, En3D состоит из трех модулей: 3D-генератора, который точно моделирует обобщаемые 3D-модели человека с реалистичным внешним видом на основе синтезированных сбалансированных, разнообразных и структурированных изображений человека; модуля скульптурирования геометрии, который повышает качество формы с использованием многовидовых нормальных ограничений для детализации анатомии человека; и модуля текстурирования, который разделяет явные текстуры с высокой точностью и возможностью редактирования, используя семантическое UV-разделение и дифференцируемый растеризатор. Экспериментальные результаты показывают, что наш подход значительно превосходит предыдущие работы по качеству изображений, точности геометрии и разнообразию контента. Мы также демонстрируем применимость созданных нами аватаров для анимации и редактирования, а также масштабируемость нашего подхода для адаптации без ограничений по стилю и содержанию.
English
We present En3D, an enhanced generative scheme for sculpting high-quality 3D
human avatars. Unlike previous works that rely on scarce 3D datasets or limited
2D collections with imbalanced viewing angles and imprecise pose priors, our
approach aims to develop a zero-shot 3D generative scheme capable of producing
visually realistic, geometrically accurate and content-wise diverse 3D humans
without relying on pre-existing 3D or 2D assets. To address this challenge, we
introduce a meticulously crafted workflow that implements accurate physical
modeling to learn the enhanced 3D generative model from synthetic 2D data.
During inference, we integrate optimization modules to bridge the gap between
realistic appearances and coarse 3D shapes. Specifically, En3D comprises three
modules: a 3D generator that accurately models generalizable 3D humans with
realistic appearance from synthesized balanced, diverse, and structured human
images; a geometry sculptor that enhances shape quality using multi-view normal
constraints for intricate human anatomy; and a texturing module that
disentangles explicit texture maps with fidelity and editability, leveraging
semantical UV partitioning and a differentiable rasterizer. Experimental
results show that our approach significantly outperforms prior works in terms
of image quality, geometry accuracy and content diversity. We also showcase the
applicability of our generated avatars for animation and editing, as well as
the scalability of our approach for content-style free adaptation.