GALA: Генерация анимируемых слоистых ассетов из одного скана
GALA: Generating Animatable Layered Assets from a Single Scan
January 23, 2024
Авторы: Taeksoo Kim, Byungjun Kim, Shunsuke Saito, Hanbyul Joo
cs.AI
Аннотация
Мы представляем GALA — фреймворк, который принимает на вход однослойную одетую 3D-модель человека и разлагает её на полные многослойные 3D-ассеты. Полученные результаты можно комбинировать с другими ассетами для создания новых одетых аватаров человека с любыми позами. Существующие подходы к реконструкции часто рассматривают одетого человека как однослойную геометрию и игнорируют присущую человеку композиционность, включая причёски, одежду и аксессуары, что ограничивает полезность моделей для последующих применений. Разложение однослойной модели на отдельные слои является сложной задачей, поскольку требует синтеза правдоподобной геометрии и текстуры для сильно затенённых областей. Более того, даже при успешном разложении модели не нормализованы по позам и формам тела, что затрудняет их согласованную композицию с новыми идентичностями и позами. Для решения этих задач мы предлагаем использовать общие знания предобученной 2D-диффузионной модели в качестве априорной информации о геометрии и внешнем виде человека и других ассетов. Сначала мы разделяем входную модель с использованием 3D-сегментации поверхности, извлечённой из многовидовой 2D-сегментации. Затем мы синтезируем недостающую геометрию различных слоёв как в пространстве поз, так и в каноническом пространстве, используя новый позо-ориентированный метод Score Distillation Sampling (SDS). После завершения восстановления высококачественной 3D-геометрии мы применяем тот же метод SDS к текстуре для получения полного внешнего вида, включая изначально затенённые области. В результате серии шагов разложения мы получаем несколько слоёв 3D-ассетов в общем каноническом пространстве, нормализованном по позам и формам тела, что позволяет легко комбинировать их с новыми идентичностями и анимировать с новыми позами. Наши эксперименты демонстрируют эффективность нашего подхода для задач разложения, канонизации и композиции по сравнению с существующими решениями.
English
We present GALA, a framework that takes as input a single-layer clothed 3D
human mesh and decomposes it into complete multi-layered 3D assets. The outputs
can then be combined with other assets to create novel clothed human avatars
with any pose. Existing reconstruction approaches often treat clothed humans as
a single-layer of geometry and overlook the inherent compositionality of humans
with hairstyles, clothing, and accessories, thereby limiting the utility of the
meshes for downstream applications. Decomposing a single-layer mesh into
separate layers is a challenging task because it requires the synthesis of
plausible geometry and texture for the severely occluded regions. Moreover,
even with successful decomposition, meshes are not normalized in terms of poses
and body shapes, failing coherent composition with novel identities and poses.
To address these challenges, we propose to leverage the general knowledge of a
pretrained 2D diffusion model as geometry and appearance prior for humans and
other assets. We first separate the input mesh using the 3D surface
segmentation extracted from multi-view 2D segmentations. Then we synthesize the
missing geometry of different layers in both posed and canonical spaces using a
novel pose-guided Score Distillation Sampling (SDS) loss. Once we complete
inpainting high-fidelity 3D geometry, we also apply the same SDS loss to its
texture to obtain the complete appearance including the initially occluded
regions. Through a series of decomposition steps, we obtain multiple layers of
3D assets in a shared canonical space normalized in terms of poses and human
shapes, hence supporting effortless composition to novel identities and
reanimation with novel poses. Our experiments demonstrate the effectiveness of
our approach for decomposition, canonicalization, and composition tasks
compared to existing solutions.