GarVerseLOD: Reconstrução de Vestuário 3D de Alta Fidelidade a partir de uma Única Imagem In-the-Wild usando um Conjunto de Dados com Níveis de Detalhes

Resumo

As funções neurais implícitas trouxeram avanços impressionantes para o estado-da-arte da digitalização de humanos vestidos a partir de múltiplas ou mesmo de uma única imagem. No entanto, apesar do progresso, as técnicas atuais ainda enfrentam dificuldades para generalizar para imagens não vistas com deformações complexas de vestuário e poses corporais. Neste trabalho, apresentamos GarVerseLOD, um novo conjunto de dados e estrutura que abre caminho para alcançar uma robustez sem precedentes na reconstrução tridimensional de vestuário de alta fidelidade a partir de uma única imagem não restrita. Inspirados pelo recente sucesso de grandes modelos generativos, acreditamos que uma chave para enfrentar o desafio de generalização reside na quantidade e qualidade dos dados tridimensionais de vestuário. Com esse objetivo, GarVerseLOD coleta 6.000 modelos de tecido de alta qualidade com detalhes de geometria refinados criados manualmente por artistas profissionais. Além da escala dos dados de treinamento, observamos que ter granularidades de geometria desentrelaçadas pode desempenhar um papel importante em impulsionar a capacidade de generalização e a precisão da inferência do modelo aprendido. Portanto, desenvolvemos GarVerseLOD como um conjunto de dados hierárquico com níveis de detalhes (LOD), que vão desde formas estilizadas sem detalhes até vestuários mesclados com poses e detalhes alinhados por pixel. Isso nos permite tornar esse problema altamente subdeterminado tratável ao decompor a inferência em tarefas mais simples, cada uma com um espaço de busca menor. Para garantir que GarVerseLOD possa generalizar bem para imagens do mundo real, propomos um novo paradigma de rotulagem baseado em modelos de difusão condicional para gerar extensas imagens em pares para cada modelo de vestuário com alta fotorrealismo. Avaliamos nosso método em uma grande quantidade de imagens do mundo real. Os resultados experimentais demonstram que GarVerseLOD pode gerar peças de vestuário autônomas com qualidade significativamente melhor do que abordagens anteriores. Página do projeto: https://garverselod.github.io/

English

Neural implicit functions have brought impressive advances to the state-of-the-art of clothed human digitization from multiple or even single images. However, despite the progress, current arts still have difficulty generalizing to unseen images with complex cloth deformation and body poses. In this work, we present GarVerseLOD, a new dataset and framework that paves the way to achieving unprecedented robustness in high-fidelity 3D garment reconstruction from a single unconstrained image. Inspired by the recent success of large generative models, we believe that one key to addressing the generalization challenge lies in the quantity and quality of 3D garment data. Towards this end, GarVerseLOD collects 6,000 high-quality cloth models with fine-grained geometry details manually created by professional artists. In addition to the scale of training data, we observe that having disentangled granularities of geometry can play an important role in boosting the generalization capability and inference accuracy of the learned model. We hence craft GarVerseLOD as a hierarchical dataset with levels of details (LOD), spanning from detail-free stylized shape to pose-blended garment with pixel-aligned details. This allows us to make this highly under-constrained problem tractable by factorizing the inference into easier tasks, each narrowed down with smaller searching space. To ensure GarVerseLOD can generalize well to in-the-wild images, we propose a novel labeling paradigm based on conditional diffusion models to generate extensive paired images for each garment model with high photorealism. We evaluate our method on a massive amount of in-the-wild images. Experimental results demonstrate that GarVerseLOD can generate standalone garment pieces with significantly better quality than prior approaches. Project page: https://garverselod.github.io/

GarVerseLOD: Reconstrução de Vestuário 3D de Alta Fidelidade a partir de uma Única Imagem In-the-Wild usando um Conjunto de Dados com Níveis de Detalhes

GarVerseLOD: High-Fidelity 3D Garment Reconstruction from a Single In-the-Wild Image using a Dataset with Levels of Details

Resumo

Support