GarVerseLOD: Reconstrucción de Prendas 3D de Alta Fidelidad a partir de una Única Imagen en Entornos Naturales utilizando un Conjunto de Datos con Niveles de Detalle
GarVerseLOD: High-Fidelity 3D Garment Reconstruction from a Single In-the-Wild Image using a Dataset with Levels of Details
November 5, 2024
Autores: Zhongjin Luo, Haolin Liu, Chenghong Li, Wanghao Du, Zirong Jin, Wanhu Sun, Yinyu Nie, Weikai Chen, Xiaoguang Han
cs.AI
Resumen
Las funciones implícitas neuronales han traído avances impresionantes al estado del arte de la digitalización de humanos vestidos a partir de múltiples o incluso una sola imagen. Sin embargo, a pesar del progreso, las técnicas actuales aún tienen dificultades para generalizar a imágenes no vistas con deformaciones de tela complejas y poses corporales. En este trabajo, presentamos GarVerseLOD, un nuevo conjunto de datos y marco que allana el camino para lograr una robustez sin precedentes en la reconstrucción tridimensional de prendas de alta fidelidad a partir de una única imagen no restringida. Inspirados en el reciente éxito de los grandes modelos generativos, creemos que una clave para abordar el desafío de la generalización radica en la cantidad y calidad de los datos tridimensionales de prendas. Con este fin, GarVerseLOD recopila 6,000 modelos de tela de alta calidad con detalles de geometría detallados creados manualmente por artistas profesionales. Además de la escala de los datos de entrenamiento, observamos que tener granularidades de geometría disentrelazadas puede desempeñar un papel importante en impulsar la capacidad de generalización y la precisión de inferencia del modelo aprendido. Por lo tanto, diseñamos GarVerseLOD como un conjunto de datos jerárquico con niveles de detalle (LOD), que van desde formas estilizadas sin detalles hasta prendas mezcladas con poses con detalles alineados con píxeles. Esto nos permite hacer que este problema altamente subdeterminado sea abordable al factorizar la inferencia en tareas más fáciles, cada una limitada con un espacio de búsqueda más pequeño. Para garantizar que GarVerseLOD pueda generalizar bien a imágenes en entornos naturales, proponemos un nuevo paradigma de etiquetado basado en modelos de difusión condicional para generar extensas imágenes emparejadas para cada modelo de prenda con alta fotorealismo. Evaluamos nuestro método en una gran cantidad de imágenes en entornos naturales. Los resultados experimentales demuestran que GarVerseLOD puede generar piezas de prendas independientes con una calidad significativamente mejor que enfoques anteriores. Página del proyecto: https://garverselod.github.io/
English
Neural implicit functions have brought impressive advances to the
state-of-the-art of clothed human digitization from multiple or even single
images. However, despite the progress, current arts still have difficulty
generalizing to unseen images with complex cloth deformation and body poses. In
this work, we present GarVerseLOD, a new dataset and framework that paves the
way to achieving unprecedented robustness in high-fidelity 3D garment
reconstruction from a single unconstrained image. Inspired by the recent
success of large generative models, we believe that one key to addressing the
generalization challenge lies in the quantity and quality of 3D garment data.
Towards this end, GarVerseLOD collects 6,000 high-quality cloth models with
fine-grained geometry details manually created by professional artists. In
addition to the scale of training data, we observe that having disentangled
granularities of geometry can play an important role in boosting the
generalization capability and inference accuracy of the learned model. We hence
craft GarVerseLOD as a hierarchical dataset with levels of details (LOD),
spanning from detail-free stylized shape to pose-blended garment with
pixel-aligned details. This allows us to make this highly under-constrained
problem tractable by factorizing the inference into easier tasks, each narrowed
down with smaller searching space. To ensure GarVerseLOD can generalize well to
in-the-wild images, we propose a novel labeling paradigm based on conditional
diffusion models to generate extensive paired images for each garment model
with high photorealism. We evaluate our method on a massive amount of
in-the-wild images. Experimental results demonstrate that GarVerseLOD can
generate standalone garment pieces with significantly better quality than prior
approaches. Project page: https://garverselod.github.io/Summary
AI-Generated Summary