GALA: Gerando Ativos em Camadas Animáveis a Partir de uma Única Digitalização
GALA: Generating Animatable Layered Assets from a Single Scan
January 23, 2024
Autores: Taeksoo Kim, Byungjun Kim, Shunsuke Saito, Hanbyul Joo
cs.AI
Resumo
Apresentamos o GALA, um framework que recebe como entrada uma malha 3D de um humano vestido em camada única e a decompõe em ativos 3D multicamadas completos. As saídas podem então ser combinadas com outros ativos para criar novos avatares humanos vestidos com qualquer pose. As abordagens de reconstrução existentes frequentemente tratam humanos vestidos como uma única camada de geometria e ignoram a composicionalidade inerente de humanos com penteados, roupas e acessórios, limitando assim a utilidade das malhas para aplicações subsequentes. Decompor uma malha de camada única em camadas separadas é uma tarefa desafiadora, pois requer a síntese de geometria e textura plausíveis para regiões severamente ocluídas. Além disso, mesmo com uma decomposição bem-sucedida, as malhas não são normalizadas em termos de poses e formas corporais, falhando em uma composição coerente com novas identidades e poses. Para enfrentar esses desafios, propomos aproveitar o conhecimento geral de um modelo de difusão 2D pré-treinado como prior de geometria e aparência para humanos e outros ativos. Primeiro, separamos a malha de entrada usando a segmentação de superfície 3D extraída de segmentações 2D multivista. Em seguida, sintetizamos a geometria ausente de diferentes camadas tanto no espaço posado quanto no canônico, utilizando uma nova função de perda de Amostragem de Distilação de Pontuação (SDS) guiada por pose. Após completar o preenchimento de alta fidelidade da geometria 3D, também aplicamos a mesma função de perda SDS à sua textura para obter a aparência completa, incluindo as regiões inicialmente ocluídas. Por meio de uma série de etapas de decomposição, obtemos múltiplas camadas de ativos 3D em um espaço canônico compartilhado, normalizado em termos de poses e formas humanas, suportando assim uma composição sem esforço com novas identidades e reanimação com novas poses. Nossos experimentos demonstram a eficácia de nossa abordagem para tarefas de decomposição, canonização e composição em comparação com soluções existentes.
English
We present GALA, a framework that takes as input a single-layer clothed 3D
human mesh and decomposes it into complete multi-layered 3D assets. The outputs
can then be combined with other assets to create novel clothed human avatars
with any pose. Existing reconstruction approaches often treat clothed humans as
a single-layer of geometry and overlook the inherent compositionality of humans
with hairstyles, clothing, and accessories, thereby limiting the utility of the
meshes for downstream applications. Decomposing a single-layer mesh into
separate layers is a challenging task because it requires the synthesis of
plausible geometry and texture for the severely occluded regions. Moreover,
even with successful decomposition, meshes are not normalized in terms of poses
and body shapes, failing coherent composition with novel identities and poses.
To address these challenges, we propose to leverage the general knowledge of a
pretrained 2D diffusion model as geometry and appearance prior for humans and
other assets. We first separate the input mesh using the 3D surface
segmentation extracted from multi-view 2D segmentations. Then we synthesize the
missing geometry of different layers in both posed and canonical spaces using a
novel pose-guided Score Distillation Sampling (SDS) loss. Once we complete
inpainting high-fidelity 3D geometry, we also apply the same SDS loss to its
texture to obtain the complete appearance including the initially occluded
regions. Through a series of decomposition steps, we obtain multiple layers of
3D assets in a shared canonical space normalized in terms of poses and human
shapes, hence supporting effortless composition to novel identities and
reanimation with novel poses. Our experiments demonstrate the effectiveness of
our approach for decomposition, canonicalization, and composition tasks
compared to existing solutions.