TeCH: Ricostruzione guidata da testo di umani vestiti realistici
TeCH: Text-guided Reconstruction of Lifelike Clothed Humans
August 16, 2023
Autori: Yangyi Huang, Hongwei Yi, Yuliang Xiu, Tingting Liao, Jiaxiang Tang, Deng Cai, Justus Thies
cs.AI
Abstract
Nonostante i recenti progressi nella ricerca sulla ricostruzione di esseri umani vestiti a partire da una singola immagine, il ripristino accurato delle "regioni non visibili" con dettagli di alto livello rimane una sfida irrisolta che riceve poca attenzione. I metodi esistenti spesso generano superfici posteriori eccessivamente levigate con texture sfocate. Ma come catturare efficacemente tutti gli attributi visivi di un individuo da una singola immagine, sufficienti a ricostruire le aree non visibili (ad esempio, la vista posteriore)? Ispirati dalla potenza dei modelli di base, TeCH ricostruisce l'umano 3D sfruttando 1) prompt testuali descrittivi (ad esempio, abbigliamento, colori, acconciature) generati automaticamente tramite un modello di analisi dell'abbigliamento e Visual Question Answering (VQA), 2) un modello di diffusione Text-to-Image (T2I) personalizzato e fine-tuned che apprende l'aspetto "indescrivibile". Per rappresentare esseri umani vestiti in 3D ad alta risoluzione a un costo accessibile, proponiamo una rappresentazione 3D ibrida basata su DMTet, che consiste in una griglia esplicita della forma del corpo e un campo di distanza implicito. Guidati dai prompt descrittivi e dal modello di diffusione T2I personalizzato, la geometria e la texture degli umani 3D vengono ottimizzate attraverso il campionamento di distillazione del punteggio multi-vista (SDS) e le perdite di ricostruzione basate sull'osservazione originale. TeCH produce esseri umani vestiti in 3D ad alta fedeltà con texture coerenti e raffinate, e una geometria corporea dettagliata. Esperimenti quantitativi e qualitativi dimostrano che TeCH supera i metodi all'avanguardia in termini di accuratezza di ricostruzione e qualità di rendering. Il codice sarà pubblicamente disponibile per scopi di ricerca all'indirizzo https://huangyangyi.github.io/tech.
English
Despite recent research advancements in reconstructing clothed humans from a
single image, accurately restoring the "unseen regions" with high-level details
remains an unsolved challenge that lacks attention. Existing methods often
generate overly smooth back-side surfaces with a blurry texture. But how to
effectively capture all visual attributes of an individual from a single image,
which are sufficient to reconstruct unseen areas (e.g., the back view)?
Motivated by the power of foundation models, TeCH reconstructs the 3D human by
leveraging 1) descriptive text prompts (e.g., garments, colors, hairstyles)
which are automatically generated via a garment parsing model and Visual
Question Answering (VQA), 2) a personalized fine-tuned Text-to-Image diffusion
model (T2I) which learns the "indescribable" appearance. To represent
high-resolution 3D clothed humans at an affordable cost, we propose a hybrid 3D
representation based on DMTet, which consists of an explicit body shape grid
and an implicit distance field. Guided by the descriptive prompts +
personalized T2I diffusion model, the geometry and texture of the 3D humans are
optimized through multi-view Score Distillation Sampling (SDS) and
reconstruction losses based on the original observation. TeCH produces
high-fidelity 3D clothed humans with consistent & delicate texture, and
detailed full-body geometry. Quantitative and qualitative experiments
demonstrate that TeCH outperforms the state-of-the-art methods in terms of
reconstruction accuracy and rendering quality. The code will be publicly
available for research purposes at https://huangyangyi.github.io/tech