ChatPaper.aiChatPaper

TeCH: Reconstrucción de Humanos Vestidos con Apariencia Realista Guiada por Texto

TeCH: Text-guided Reconstruction of Lifelike Clothed Humans

August 16, 2023
Autores: Yangyi Huang, Hongwei Yi, Yuliang Xiu, Tingting Liao, Jiaxiang Tang, Deng Cai, Justus Thies
cs.AI

Resumen

A pesar de los recientes avances en la investigación sobre la reconstrucción de humanos vestidos a partir de una sola imagen, la restauración precisa de las "regiones no visibles" con detalles de alto nivel sigue siendo un desafío sin resolver que ha recibido poca atención. Los métodos existentes suelen generar superficies traseras excesivamente suavizadas con texturas borrosas. Pero, ¿cómo capturar de manera efectiva todos los atributos visuales de un individuo a partir de una sola imagen, que sean suficientes para reconstruir áreas no visibles (por ejemplo, la vista posterior)? Motivado por el poder de los modelos fundacionales, TeCH reconstruye el humano en 3D aprovechando 1) indicaciones de texto descriptivas (por ejemplo, prendas, colores, peinados) que se generan automáticamente mediante un modelo de análisis de prendas y un sistema de Respuesta Visual a Preguntas (VQA), 2) un modelo de difusión Texto-a-Imagen (T2I) ajustado personalmente que aprende la apariencia "indescriptible". Para representar humanos vestidos en 3D de alta resolución a un costo asequible, proponemos una representación híbrida en 3D basada en DMTet, que consiste en una malla explícita de la forma del cuerpo y un campo de distancia implícito. Guiados por las indicaciones descriptivas y el modelo de difusión T2I personalizado, la geometría y la textura de los humanos en 3D se optimizan mediante el muestreo de destilación de puntuación multivista (SDS) y pérdidas de reconstrucción basadas en la observación original. TeCH produce humanos vestidos en 3D de alta fidelidad con texturas consistentes y delicadas, y una geometría corporal detallada. Los experimentos cuantitativos y cualitativos demuestran que TeCH supera a los métodos más avanzados en términos de precisión de reconstrucción y calidad de renderizado. El código estará disponible públicamente con fines de investigación en https://huangyangyi.github.io/tech.
English
Despite recent research advancements in reconstructing clothed humans from a single image, accurately restoring the "unseen regions" with high-level details remains an unsolved challenge that lacks attention. Existing methods often generate overly smooth back-side surfaces with a blurry texture. But how to effectively capture all visual attributes of an individual from a single image, which are sufficient to reconstruct unseen areas (e.g., the back view)? Motivated by the power of foundation models, TeCH reconstructs the 3D human by leveraging 1) descriptive text prompts (e.g., garments, colors, hairstyles) which are automatically generated via a garment parsing model and Visual Question Answering (VQA), 2) a personalized fine-tuned Text-to-Image diffusion model (T2I) which learns the "indescribable" appearance. To represent high-resolution 3D clothed humans at an affordable cost, we propose a hybrid 3D representation based on DMTet, which consists of an explicit body shape grid and an implicit distance field. Guided by the descriptive prompts + personalized T2I diffusion model, the geometry and texture of the 3D humans are optimized through multi-view Score Distillation Sampling (SDS) and reconstruction losses based on the original observation. TeCH produces high-fidelity 3D clothed humans with consistent & delicate texture, and detailed full-body geometry. Quantitative and qualitative experiments demonstrate that TeCH outperforms the state-of-the-art methods in terms of reconstruction accuracy and rendering quality. The code will be publicly available for research purposes at https://huangyangyi.github.io/tech
PDF343December 15, 2024