TeCH : Reconstruction d'humains habillés réalistes guidée par texte
TeCH: Text-guided Reconstruction of Lifelike Clothed Humans
August 16, 2023
Auteurs: Yangyi Huang, Hongwei Yi, Yuliang Xiu, Tingting Liao, Jiaxiang Tang, Deng Cai, Justus Thies
cs.AI
Résumé
Malgré les avancées récentes dans la reconstruction d'humains habillés à partir d'une seule image, la restauration précise des "régions non visibles" avec des détails de haut niveau reste un défi non résolu qui manque d'attention. Les méthodes existantes génèrent souvent des surfaces arrière trop lisses avec une texture floue. Mais comment capturer efficacement tous les attributs visuels d'un individu à partir d'une seule image, suffisants pour reconstruire les zones non visibles (par exemple, la vue arrière) ? Motivé par la puissance des modèles de base, TeCH reconstruit l'humain en 3D en exploitant 1) des invites textuelles descriptives (par exemple, vêtements, couleurs, coiffures) qui sont générées automatiquement via un modèle d'analyse de vêtements et de Question-Réponse Visuelle (VQA), 2) un modèle de diffusion Text-to-Image (T2I) personnalisé et affiné qui apprend l'apparence "indescriptible". Pour représenter des humains habillés en 3D haute résolution à un coût abordable, nous proposons une représentation 3D hybride basée sur DMTet, qui consiste en une grille de forme corporelle explicite et un champ de distance implicite. Guidé par les invites descriptives + le modèle de diffusion T2I personnalisé, la géométrie et la texture des humains en 3D sont optimisées via un échantillonnage de distillation de score multi-vues (SDS) et des pertes de reconstruction basées sur l'observation originale. TeCH produit des humains habillés en 3D haute fidélité avec une texture cohérente et délicate, et une géométrie corporelle détaillée. Les expériences quantitatives et qualitatives démontrent que TeCH surpasse les méthodes de pointe en termes de précision de reconstruction et de qualité de rendu. Le code sera rendu public à des fins de recherche à l'adresse https://huangyangyi.github.io/tech.
English
Despite recent research advancements in reconstructing clothed humans from a
single image, accurately restoring the "unseen regions" with high-level details
remains an unsolved challenge that lacks attention. Existing methods often
generate overly smooth back-side surfaces with a blurry texture. But how to
effectively capture all visual attributes of an individual from a single image,
which are sufficient to reconstruct unseen areas (e.g., the back view)?
Motivated by the power of foundation models, TeCH reconstructs the 3D human by
leveraging 1) descriptive text prompts (e.g., garments, colors, hairstyles)
which are automatically generated via a garment parsing model and Visual
Question Answering (VQA), 2) a personalized fine-tuned Text-to-Image diffusion
model (T2I) which learns the "indescribable" appearance. To represent
high-resolution 3D clothed humans at an affordable cost, we propose a hybrid 3D
representation based on DMTet, which consists of an explicit body shape grid
and an implicit distance field. Guided by the descriptive prompts +
personalized T2I diffusion model, the geometry and texture of the 3D humans are
optimized through multi-view Score Distillation Sampling (SDS) and
reconstruction losses based on the original observation. TeCH produces
high-fidelity 3D clothed humans with consistent & delicate texture, and
detailed full-body geometry. Quantitative and qualitative experiments
demonstrate that TeCH outperforms the state-of-the-art methods in terms of
reconstruction accuracy and rendering quality. The code will be publicly
available for research purposes at https://huangyangyi.github.io/tech